Устройство кодирования аудио/голоса, устройство декодирования аудио/голоса, способ кодирования аудио/голоса и способ декодирования аудио/голоса

Изобретение относится к кодированию и декодированию аудиоречи. Технический результат – повышение эффективности кодирования и декодирования аудиоречи и повышение качества звука. Устройства кодирования и декодирования содержат блок идентификации диапазонов доминантных частот, который идентифицирует диапазон доминантной частоты, имеющий значение коэффициента нормы, то есть максимальное значение в пределах спектра входного сигнала аудио/голоса, а также блоки определения доминантных групп и блок определения недоминантных групп, которые группируют все поддиапазоны в доминантную группу, которая содержит диапазон доминантной частоты, и недоминантную группу, которая содержит диапазон недоминантной частоты, блок распределения битов группам, который распределяет биты каждой группе на основе энергии и дисперсии нормы каждой группы, и блок распределения битов поддиапазонам, который перераспределяет биты, которые были распределены каждой группе, каждому поддиапазону в соответствии с отношением нормы к энергии групп. 4 н. и 4 з.п. ф-лы, 11 ил.

 

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее изобретение относится к устройству кодирования аудио/речи, устройству декодирования аудио/речи, способу кодирования аудио/речи и способу декодирования аудио/речи с использованием схемы кодирования c преобразованием.

УРОВЕНЬ ТЕХНИКИ

[0002] В качестве схемы, способной эффективно кодировать речевой сигнал или музыкальный сигнал в полном диапазоне (FB) от 0,02 до 20 кГц, существует стандартизованный подход в ITU-T (Сектор Стандартизации Телекоммуникаций Международного Союза Электросвязи). Этот подход преобразует входной сигнал в сигнал частотной области и кодирует диапазон вплоть до 20 кГц (кодирование с преобразованием).

[0003] Здесь кодирование с преобразованием является схемой кодирования, которая преобразует входной сигнал из временной области в частотную область с использованием преобразования время-частота, такого как дискретное косинусное преобразование (DCT) или модифицированное дискретное косинусное преобразования (MDCT) для обеспечения возможности отображения сигнала в точном соответствии со слуховыми характеристиками.

[0004] При кодировании с преобразованием спектральный коэффициент разбивается на множество частотных поддиапазонов. При кодировании каждого поддиапазона выделение большего количества битов квантования диапазону, который является значимым с точки зрения восприятия для человеческих ушей, обеспечивает возможность улучшения общего качества звука.

[0005] Для того чтобы достичь этой цели, были выполнены исследования в отношении эффективных схем выделения битов, и, например, известен подход, раскрытый в непатентной литературе (в дальнейшем в этом документе упоминаемой как "NPL") 1. В дальнейшем в этом документе схема выделения битов, раскрытая в патентной литературе (в дальнейшем в этом документе упоминаемой как "PTL") 1, будет описана с использованием ФИГ. 1 и ФИГ. 2.

[0006] ФИГ. 1 представляет собой структурную схему, иллюстрирующую конфигурацию устройства кодирования аудио/речи, раскрытого в PTL 1. Входной сигнал, дискретизированный с частотой 48 кГц, вводится в блок 11 обнаружения перехода и блок 12 преобразования устройства кодирования аудио/речи.

[0007] Блок 11 обнаружения перехода обнаруживает из входного сигнала либо кадр перехода, соответствующий передней границе или задней границе речи, либо стационарный кадр, соответствующий секции речи, отличной от упомянутой, и блок 12 преобразования применяет к кадру входного сигнала преобразование с высокочастотным разрешением или преобразование с низкочастотным разрешением в зависимости от того, является ли кадр, обнаруженный блоком 11 обнаружения перехода, кадром перехода или стационарным кадром, и извлекает спектральный коэффициент (или коэффициент преобразования).

[0008] Блок 13 оценки нормы разбивает спектральный коэффициент, получаемый в блоке 12 преобразования, на диапазоны различных диапазонов частот. Блок 13 оценки нормы оценивает норму (или энергию) каждого полученного разбиением диапазона.

[0009] Блок 14 квантования нормы определяет огибающую спектра, составленную из норм всех диапазонов, на основе нормы каждого диапазона, оцениваемой блоком 13 оценки нормы, и квантует определенную огибающую спектра.

[0010] Блок 15 нормализации спектра нормализует спектральный коэффициент, получаемый блоком 12 преобразования, согласно норме, квантованной блоком 14 квантования нормы.

[0011] Блок 16 корректировки нормы корректирует норму, квантованную блоком 14 квантования нормы, на основе адаптивного спектрального взвешивания.

[0012] Блок 17 выделения битов выделяет доступные биты для каждого диапазона в кадре с использованием нормы квантования, скорректированной блоком 16 корректировки нормы.

[0013] Блок 18 кодирования вектора решетки выполняет кодирование вектора решетки над спектральным коэффициентом, нормализованным блоком 15 нормализации спектра, с использованием битов, выделенных для каждого диапазона блоком 17 выделения битов.

[0014] Блок 19 корректировки уровня шума оценивает уровень спектрального коэффициента до кодирования в блоке 18 кодирования вектора решетки и кодирует оцененный уровень. Таким образом получается индекс корректировки уровня шума.

[0015] Мультиплексор 20 мультиплексирует конфигурацию кадра входного сигнала, извлеченного блоком 12 преобразования, то есть флаг сигнала перехода, указывающий, является ли кадр стационарным кадром или кадром перехода, норму, квантованную блоком 14 квантования нормы, вектор кодирования решетки, полученный блоком 18 кодирования вектора решетки, и индекс корректировки уровня шума, полученный блоком 19 корректировки уровня шума, и формирует битовый поток и передает битовый поток устройству декодирования аудио/речи.

[0016] ФИГ. 2 представляет собой структурную схему, иллюстрирующую конфигурацию устройства декодирования аудио/речи, раскрытого в PTL 1. Устройство декодирования аудио/речи принимает битовый поток, передаваемый из устройства кодирования аудио/речи и демультиплексор 21 демультиплексирует битовый поток.

[0017] Блок 22 деквантования нормы деквантует квантованную норму, извлекает огибающую спектра, составленную из норм всех диапазонов, и блок 23 корректировки нормы корректирует норму, деквантованную блоком 22 деквантования нормы, на основе адаптивного спектрального взвешивания.

[0018] Блок 24 выделения битов выделяет доступные биты для каждого диапазона в кадре с использованием норм, скорректированных блоком 23 корректировки нормы. То есть блок 24 выделения битов повторно вычисляет выделение битов необходимое для декодирования кода вектора решетки нормализованного спектрального коэффициента.

[0019] Блок 25 декодирования решетки декодирует флаг сигнала перехода, декодирует вектор кодирования решетки на основе конфигурации кадра, указанной декодированным флагом сигнала перехода, и битов, выделенных блоком 24 выделение битов, и извлекает спектральный коэффициент.

[0020] Генератор 26 наполнения спектра регенерирует низкочастотный спектральный коэффициент, которому не было выделено никаких битов, с использованием кодовой книги, созданной на основе спектрального коэффициента, декодированного блоком 25 декодирования решетки. Генератор 26 наполнения спектра корректирует уровень регенерированного спектрального коэффициента с использованием индекса корректировки уровня шума. Кроме того, генератор 26 наполнения спектра регенерирует высокочастотный некодированный спектральный коэффициент с использованием низкочастотного кодированного спектрального коэффициента.

[0021] Блок 27 суммирования суммирует декодированный спектральный коэффициент и регенерированный спектральный коэффициент и генерирует нормализованный спектральный коэффициент.

[0022] Блок 28 формирования огибающей применяет огибающую спектра, деквантованную блоком 22 деквантования нормы, к нормализованному спектральному коэффициенту, сгенерированному блоком 27 суммирования, и генерирует спектральный коэффициент полного диапазона.

[0023] Блок 29 обратного преобразования применяет обратное преобразование, такое как обратное модифицированное дискретное косинусное преобразование (IMDCT), к спектральному коэффициенту полного диапазона, сгенерированному блоком 28 формирования огибающей, для преобразования его в сигнал временной области. Здесь обратное преобразование с высокочастотным разрешением применяется к случаю со стационарным кадром и обратное преобразование с низкочастотным разрешением применяется к случаю с кадром перехода.

[0024] В G.719 спектральные коэффициенты разбиваются на группы спектров. Каждая группа спектров разбивается на диапазоны подвекторов равной длины, как показано на ФИГ. 3. Подвекторы различаются по длине в разных группах, и эта длина увеличивается по мере увеличения частоты. Касательно разрешения преобразования, более высокочастотное разрешение используется для низких частот, в то время как более низкочастотное разрешение используется для высоких частот. Как описано в G.719, группирование обеспечивает эффективное использование ресурса доступных битов во время кодирования.

[0025] В G.719 схема выделения битов является идентичной и в устройстве кодирования, и в устройстве декодирования. Здесь схема выделения битов будет описана с использованием ФИГ. 4.

[0026] Как показано на ФИГ. 4, на этапе (в дальнейшем в этом документе этап обозначается аббревиатурой "ST") 31 квантованные нормы корректируются перед выделением битов для корректировки психоакустического взвешивания и эффектов маскирования.

[0027] На ST32 поддиапазоны, имеющие максимальную норму, идентифицируются из числа всех поддиапазонов, и на ST33 один бит выделяется каждому спектральному коэффициенту для поддиапазонов, имеющих максимальную норму. То есть выделяется столько же битов, сколько спектральных коэффициентов.

[0028] На ST34 нормы сокращаются согласно выделенным битам, и на ST35 определяется, равно ли оставшееся число выделенных битов 8 или более. Когда оставшееся число выделенных битов равно 8 или более, последовательность возвращается на ST32, и когда оставшееся число выделенных битов меньше 8, процедура выделения битов завершается.

[0029] Таким образом, в схеме выделения битов доступные биты в пределах кадра выделяются поддиапазонам с использованием скорректированных норм квантования. Нормализованные спектральные коэффициенты кодируются посредством кодирования вектора решетки с использованием битов, выделенных каждому поддиапазону.

СПИСОК ССЫЛОК

ПАТЕНТНАЯ ЛИТЕРАТУРА

[0030]

NPL 1

ITU-T Рекомендация G.719, "Low-complexity full-band audio coding for high-quality conversational applications", ITU-T, 2009.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

ТЕХНИЧЕСКАЯ ПРОБЛЕМА

[0031] Однако вышеуказанная схема выделения битов не учитывает характеристики входного сигнала при группировании диапазонов (полос) спектра и поэтому имеется проблема, заключающаяся в том, что эффективное выделение битов не является возможным и нельзя ожидать дальнейшего улучшения качества звука.

[0032] Целью настоящего изобретения является обеспечение устройства кодирования аудио/речи, устройства декодирования аудио/речи, способа кодирования аудио/речи и способа декодирования аудио/речи, способных реализовывать эффективное выделение битов и улучшать качество звука.

РЕШЕНИЕ ПРОБЛЕМЫ

[0033] Устройство кодирования аудио/речи настоящего изобретения включает в себя блок преобразования, который преобразует входной сигнал из временной области в частотную область; блок оценки, который оценивает огибающую энергии, которая представляет уровень энергии для каждого из множества поддиапазонов, получаемых посредством разбиения частотного спектра входного сигнала; блок квантования, который квантует огибающие энергии; блок определения групп, который группирует квантованные огибающие энергии во множество групп; первый блок выделения битов, который выделяет биты упомянутому множеству групп; второй блок выделения битов, который выделяет упомянутые биты, выделенные упомянутому множеству групп, поддиапазонам на погрупповой основе; и блок кодирования, который кодирует частотный спектр с использованием битов, выделенных поддиапазонам.

[0034] Устройство декодирования аудио/речи согласно настоящему изобретению включает в себя блок деквантования, который осуществляет деквантование квантованной огибающей спектра; блок определения групп, который группирует квантованные огибающие спектра во множество групп; первый блок выделения битов, который выделяет биты упомянутому множеству групп; второй блок выделения битов, который выделяет упомянутые биты, выделенные упомянутому множеству групп, поддиапазонам на погрупповой основе; блок декодирования, который декодирует частотный спектр речевого/аудиосигнала с использованием битов, выделенных поддиапазонам; блок формирования огибающей, который применяет деквантованную огибающую спектра к декодированному частотному спектру и воспроизводит декодированный спектр; и блок обратного преобразования, который обратно преобразует декодированный спектр из частотной области во временную область.

[0035] Способ кодирования аудио/речи согласно настоящему изобретению включает в себя преобразование входного сигнал из временной области в частотную область; оценку огибающей энергии, которая представляет уровень энергии для каждого из множества поддиапазонов, получаемых посредством разбиения частотного спектра входного сигнала; квантование огибающих энергии; группирование квантованных огибающих энергии во множество групп; выделение битов упомянутому множеству групп; выделение упомянутых битов, выделенных упомянутому множеству групп, поддиапазонам на погрупповой основе; и кодирование частотного спектра с использованием битов, выделенных поддиапазонам.

[0036] Способ декодирования аудио/речи согласно настоящему изобретению включает в себя деквантование квантованной огибающей спектра; группирование квантованной огибающей спектра во множество групп; выделение битов упомянутому множеству групп; выделение упомянутых битов, выделенных упомянутому множеству групп, поддиапазонам на погрупповой основе; декодирование частотного спектра речевого/аудиосигнала с использованием битов, выделенных поддиапазонам; применение деквантованной огибающей спектра к декодированному частотному спектру и воспроизведение декодированного спектра; и обратное преобразование декодированного спектра из частотной области во временную область.

БЛАГОПРИЯТНЫЕ ЭФФЕКТЫ ИЗОБРЕТЕНИЯ

[0037] Согласно настоящему изобретению можно реализовать эффективное выделение битов и улучшить качество звука.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0038] ФИГ. 1 представляет собой структурную схему, иллюстрирующую конфигурацию устройства кодирования аудио/речи, раскрытого в PTL 1;

ФИГ. 2 представляет собой структурную схему, иллюстрирующую конфигурацию устройства декодирования аудио/речи, раскрытого в PTL 1;

ФИГ. 3 представляет собой схему, иллюстрирующую группирование спектральных коэффициентов в стационарном режиме, раскрытом в PTL 1;

ФИГ. 4 представляет собой блок-схему последовательности операций, иллюстрирующую схему выделения битов, раскрытую в PTL 1;

ФИГ. 5 представляет собой структурную схему, иллюстрирующую конфигурацию устройства кодирования аудио/речи согласно варианту осуществления настоящего изобретения;

ФИГ. 6 представляет собой структурную схему, иллюстрирующую конфигурацию устройства декодирования аудио/речи согласно варианту осуществления настоящего изобретения;

ФИГ. 7 представляет собой структурную схему, иллюстрирующую внутреннюю конфигурацию блока выделения битов, показанного на ФИГ. 5.

ФИГ. с 8A по 8С представляют собой схемы, обеспеченные для описания способа группирования согласно варианту осуществления настоящего изобретения; и

ФИГ. 9 представляет собой схему, иллюстрирующую дисперсию нормы.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

[0039] В дальнейшем в этом документе со ссылкой на сопроводительные чертежи будут подробно описаны варианты осуществления настоящего изобретения.

[0040] (ВАРИАНТ ОСУЩЕСТВЛЕНИЯ)

ФИГ. 5 представляет собой структурную схему, иллюстрирующую конфигурацию устройства 100 кодирования аудио/речи согласно варианту осуществления настоящего изобретения. Входной сигнал, дискретизированный с частотой 48 кГц, вводится в блок 101 обнаружения перехода и блок 102 преобразования устройства 100 кодирования аудио/речи.

[0041] Блок 101 обнаружения перехода обнаруживает из входного сигнала либо кадр перехода, соответствующий передней границе или задней границе речи, либо стационарный кадр, соответствующий секции речи, отличной от упомянутой, и выводит результат обнаружения в блок 102 преобразования. Блок 102 преобразования применяет к кадру входного сигнала преобразование с высокочастотным разрешением или преобразование с низкочастотным разрешением в зависимости от того, является ли результат обнаружения, выведенный из блока 101 обнаружения перехода, кадром перехода или стационарным кадром, и извлекает спектральный коэффициент (или коэффициент преобразования), и выводит спектральный коэффициент в блок 103 оценки нормы и блок 105 нормализации спектра. Блок 102 преобразования выводит конфигурацию кадра, которая является результатом обнаружения, выведенным из блока 101 обнаружения перехода, то есть флаг сигнала перехода, указывающий, является ли кадр стационарным кадром или кадром перехода, в мультиплексор 110.

[0042] Блок 103 оценки нормы разбивает спектральный коэффициент, выводимый из блока 102 преобразования, на диапазоны различных диапазонов частот и оценивает норму (или энергию) каждого полученного разбиением диапазона. Блок 103 оценки нормы выводит оцененную норму каждого диапазона в блок 104 квантования нормы.

[0043] Блок 104 квантования нормы определяет огибающую спектра, составленную из норм всех диапазонов, на основе норм соответствующих диапазонов, выведенных из блока 103 оценки нормы, квантует определенную огибающую спектра и выводит квантованную огибающую спектра в блок 105 нормализации спектра и блок 106 корректировки нормы.

[0044] Блок 105 нормализации спектра нормализует спектральный коэффициент, выведенный из блока 102 преобразования, согласно квантованной огибающей спектра, выведенной из блока 104 квантования нормы, и выводит нормализованный спектральный коэффициент в блок 108 кодирования вектора решетки.

[0045] Блок 106 корректировки нормы корректирует квантованную огибающую спектра, выведенную из блока 104 квантования нормы, на основе адаптивного спектрального взвешивания и выводит скорректированную квантованную огибающую спектра в блок 107 выделения битов.

[0046] Блок 107 выделения битов выделяет доступные биты для каждого диапазона в кадре с использованием скорректированной квантованной огибающей спектра, выведенной из блока 106 корректировки нормы, и выводит выделенные биты в блок 108 кодирования вектора решетки. Детали блока 107 выделения битов будут описаны ниже по тексту.

[0047] Блок 108 кодирования вектора решетки выполняет кодирование вектора решетки над спектральным коэффициентом, нормализованным блоком 105 нормализации спектра, с использованием битов, выделенных для каждого диапазона в блоке 107 выделения битов, и выводит вектор кодирования решетки в блок 109 корректировки уровня шума и мультиплексор 110.

[0048] Блок 109 корректировки уровня шума оценивает уровень спектрального коэффициента перед кодированием в блоке 108 кодирования вектора решетки и кодирует оцененный уровень. Таким образом определяется индекс корректировки уровня шума. Индекс корректировки уровня шума выводится в мультиплексор 110.

[0049] Мультиплексор 110 мультиплексирует флаг сигнала перехода, выведенный из блока 102 преобразования, квантованную огибающую спектра, выведенную из блока 104 квантования нормы, вектор кодирования решетки, выведенный из блока 108 кодирования вектора решетки, и индекс корректировки уровня шума, выведенный из блока 109 корректировки уровня шума, и формирует битовый поток и передает битовый поток устройству декодирования аудио/речи.

[0050] ФИГ. 6 представляет собой структурную схему, иллюстрирующую конфигурацию устройства 200 декодирования аудио/речи согласно варианту осуществления настоящего изобретения. Битовый поток, передаваемый из устройства 100 кодирования аудио/речи, принимается устройством 200 декодирования аудио/речи и демультиплексируется демультиплексором 201.

[0051] Блок 202 деквантования нормы осуществляет деквантование квантованной огибающей спектра (то есть нормы), выводимой из мультиплексора, получает огибающую спектра, составленную из норм всех диапазонов, и выводит полученную огибающую спектра в блок 203 корректировки нормы.

[0052] Блок 203 корректировки нормы корректирует огибающую спектра, выведенную из блока 202 деквантования нормы, на основе адаптивного спектрального взвешивания и выводит скорректированную огибающую спектра в блок 204 выделения битов.

[0053] Блок 204 выделения битов выделяет доступные биты для каждого диапазона в кадре с использованием огибающей спектра, выведенной из блока 203 корректировки нормы. То есть блок 204 выделения битов повторно вычисляет выделение битов необходимое для декодирования кода вектора решетки нормализованного спектрального коэффициента. Выделенные биты выводятся в блок 205 декодирования решетки.

[0054] Блок 205 декодирования решетки декодирует вектор кодирования решетки, выведенный из демультиплексора 201, на основе конфигурации кадра, указанной флагом сигнала перехода, выведенным из демультиплексора 201, и битов, выведенных из блока 204 выделение битов, и извлекает спектральный коэффициент. Спектральный коэффициент выводится в генератор 206 наполнения спектра и блок 207 суммирования.

[0055] Генератор 206 наполнения спектра регенерирует низкочастотный спектральный коэффициент, которому не был выделен бит, с использованием кодовой книги, созданной на основе спектрального коэффициента, выведенного из блока 205 декодирования решетки. Генератор 206 наполнения спектра корректирует уровень регенерированного спектрального коэффициента с использованием индекса корректировки уровня шума, выведенного из демультиплексора 201. Кроме того, генератор 206 наполнения спектра регенерирует спектральный коэффициент, не подвергнутый высокочастотному кодированию, с использованием низкочастотного кодированного спектрального коэффициента. Низкочастотный спектральный коэффициент со скорректированным уровнем и регенерированный высокочастотный спектральный коэффициент выводятся в блок 207 суммирования.

[0056] Блок 207 суммирования суммирует спектральный коэффициент, выведенный из блока 205 декодирования решетки, и спектральный коэффициент, выведенный из генератора 206 наполнения спектра, генерирует нормализованный спектральный коэффициент и выводит нормализованный спектральный коэффициент в блок 208 формирования огибающей.

[0057] Блок 208 формирования огибающей применяет огибающую спектра, выведенную из блока 202 деквантования нормы, к нормализованному спектральному коэффициенту, сгенерированному блоком 207 суммирования, и генерирует спектральный коэффициент полного диапазона (соответствующий декодированному спектру). Сгенерированный спектральный коэффициент полного диапазона выводится в блок 209 обратного преобразования.

[0058] Блок 209 обратного преобразования применяет обратное преобразование, такое как обратное модифицированное дискретное косинусное преобразование (IMDCT), к спектральному коэффициенту полного диапазона, выведенному из блока 208 формирования огибающей, преобразует его в сигнал временной области и выводит выходной сигнал. Здесь обратное преобразование с высокочастотным разрешением применяется к случаю стационарного кадра и обратное преобразование с низкочастотным разрешением применяется к случаю кадра перехода.

[0059] Далее буду описаны детали блока 107 выделения битов с использованием ФИГ. 7. Следует отметить, что блок выделения битов устройства 100 кодирования аудио/речи идентичен по конфигурации блоку 204 выделения битов устройства 200 декодирования аудио/речи и поэтому здесь будет описан только блок 107 выделения битов и описание блока 204 выделения битов будет пропущено.

[0060] ФИГ. 7 представляет собой структурную схему, иллюстрирующую внутреннюю конфигурацию блока 107 выделения битов, показанного на ФИГ. 5. Блок 301 идентификации диапазонов доминантных частот идентифицирует на основе квантованной огибающей спектра, выведенной из блока 106 корректировки нормы, диапазон доминантной частоты, который является поддиапазоном, в котором значение коэффициента нормы в спектре имеет значение локального максимума, и выводит каждый идентифицированный диапазон доминантной частоты в блоки с 302-1 по 302N определения доминантных групп. В дополнение к назначению диапазона частот, для которого значение коэффициента нормы имеет значение локального максимума, примеры способа определения диапазона доминантной частоты могут включать в себя назначение диапазона среди всех поддиапазонов, в котором значение коэффициента нормы имеет максимальное значение, в качестве диапазона доминантной частоты или назначение в качестве диапазона доминантной частоты диапазона, имеющего значение коэффициента нормы, превышающее предопределенный порог или порог, вычисленный из норм всех поддиапазонов.

[0061] Блоки с 302-1 по 302N определения доминантных групп адаптивно определяют ширину групп согласно характеристикам входного сигнала, с центрированием на диапазоне доминантной частоты, выведенном из блока 301 идентификации диапазонов доминантных частот. Более конкретно, ширина группы задается как ширина группы поддиапазонов, центрированных на и с обеих сторон диапазона доминантной частоты вплоть до поддиапазонов, где останавливается нисходящая кривая значения коэффициента нормы. Блоки с 302-1 по 302N определения доминантных групп определяют диапазоны частот, включенные в ширину групп, в качестве доминантных групп, и выводят определенные доминантные группы в блок 303 определения недоминантных групп. Следует отметить, что когда диапазон доминантной частоты расположен на границе (конце доступной частоты) только одна сторона нисходящей кривой включается в группу.

[0062] Блок 303 определения недоминантных групп определяет непрерывные поддиапазоны, выведенные из блоков с 302-1 по 302N определения доминантных групп, отличные от доминантных групп, в качестве недоминантных групп без диапазонов доминантных частот. Блок 303 определения недоминантных групп выводит доминантные группы и недоминантные группы в блок 304 вычисления энергии группы и блок 306 вычисления дисперсии нормы.

[0063] Блок 304 вычисления энергии группы вычисляет специфическую для группы энергию доминантных групп и недоминантных групп, выведенных из блока 303 определения недоминантных групп, и выводит вычисленную энергию в блок 305 вычисления суммарной энергии и блок 308 распределения битов группам. Специфическая для группы энергия вычисляется следующим уравнением 1.

[1]

(Уравнение 1)

[0064] Здесь k обозначает индекс каждой группы, Energy(G(k)) обозначает энергию группы k, i обозначает индекс поддиапазона группы k, M обозначает суммарное число поддиапазонов группы k и Norm(i) обозначает значение коэффициента нормы поддиапазона i группы k.

[0065] Блок 305 вычисления суммарной энергии суммирует всю специфическую для группы энергию, выведенную из блока 304 вычисления энергии группы, и вычисляет суммарную энергию всех групп. Вычисленная суммарная энергия выводится в блок 308 распределения битов группам. Суммарная энергия вычисляется следующим уравнением 2.

[2]

(Уравнение 2)

[0066] Здесь Energytotal обозначает суммарную энергию всех групп, N обозначает суммарное число групп в спектре, k обозначает индекс каждой группы и Energy(G(k)) обозначает энергию группы k.

[0067] Блок 306 вычисления дисперсии нормы вычисляет специфическую для группы дисперсию нормы для доминантных групп и недоминантных групп, выводимых из блока 303 определения недоминантных групп, и выводит вычисленную дисперсию нормы в блок 307 вычисления полной дисперсии нормы и блок 308 распределения битов группам. Специфическая для группы дисперсия нормы вычисляется следующим уравнением 3.

[3]

(Уравнение 3)

[0068] Здесь k обозначает индекс каждой группы, Normvar(G(k)) обозначает дисперсию нормы группы k, Normmax(G(k)) обозначает максимальное значение коэффициента нормы группы k и Normmin(G(k)) обозначает минимальное значение коэффициента нормы группы k.

[0069] Блок 307 вычисления полной дисперсии нормы вычисляет полную дисперсию нормы всех групп на основе специфической для группы дисперсии нормы, выведенной из блока 306 вычисления дисперсии нормы. Вычисленная полная дисперсия нормы выводится в блок 308 распределения битов группам. Полная дисперсия нормы вычисляется следующим уравнением 4.

[4]

(Уравнение 4)

[0070] Здесь Normvartotal обозначает полную дисперсию нормы всех групп, N обозначает суммарное число групп в спектре, k обозначает индекс каждой группы и Normvar(G(k)) обозначает дисперсию нормы группы k.

[0071] Блок 308 распределения битов группам (соответствующий первому блоку выделения битов) распределяет биты на погрупповой основе на основании специфической для группы энергии, выведенной из блока 304 вычисления энергии группы, суммарной энергии всех групп, выведенной из блока 305 вычисления суммарной энергии, специфической для группы дисперсии нормы, выведенной из блока 306 вычисления дисперсии нормы и полной дисперсии нормы всех групп, выведенной из блока 307 вычисления полной дисперсии нормы, и выводит биты, распределяемые на погрупповой основе в блок 309 распределения битов поддиапазонам. Биты, распределенные на погрупповой основе, вычисляются следующим уравнением 5.

[5]

(Уравнение 5)

[0072] Здесь k обозначает индекс каждой группы, Bits(G(k)) обозначает число битов, распределяемых группе k, Bitstotal обозначает суммарное число доступных битов, scale1 обозначает соотношение битов, выделяемых энергией, Energy(G(k)) обозначает энергию группы k, Energytotal обозначает суммарную энергию всех групп и Normvar(G(k)) обозначает дисперсию нормы группы k.

[0073] Кроме того, scale1 в уравнении 5 выше по тексту принимает значение в пределах диапазона [0, 1] и корректирует соотношение битов, выделяемых энергией или дисперсией нормы. Чем больше значение scale1, тем больше битов выделяется энергией и в предельном случае, если значение равно 1, все биты выделяются энергией. Чем меньше значение scale1, тем больше битов выделяется дисперсией нормы и в предельном случае, если значение равно 0, все биты выделяются дисперсией нормы.

[0074] Посредством распределения битов на погрупповой основе как описано выше по тексту блок 308 распределения битов группам может распределять большее количество битов доминантным группам и распределять меньшее количество битов недоминантным группам.

[0075] Таким образом, блок 308 распределения битов группам может определять значимость с точки зрения восприятия каждой группы энергией и дисперсией нормы, и сильнее улучшать доминантные группы. Дисперсия нормы согласуется с теорией маскирования и может более точно определять значимость с точки зрения восприятия.

[0076] Блок 309 распределения битов поддиапазонам (соответствующий второму блоку выделения битов) распределяет биты поддиапазонам в каждой группе на основе специфических для группы битов, выведенных из блока 308 распределения битов группам, и выводит биты, выделенные специфическим для группы поддиапазонам, в блок 108 кодирования вектора решетки в качестве результата выделения битов. Здесь большее количество битов распределяется поддиапазонам значимым с точки зрения восприятия и меньшее количество битов распределяется поддиапазонам менее значимым с точки зрения восприятия. Биты, распределяемые каждому поддиапазону в группе, вычисляются следующим уравнением 6.

[6]

(Уравнение 6)

[0077] Здесь BitsG(k)sb(i) обозначает бит, выделенный поддиапазону i группы k, i обозначает индекс поддиапазона группы k, Bits(G(k)) обозначает бит, выделенный группе k, Energy(G(k)) обозначает энергию группы k, и Norm(i) обозначает значение коэффициента нормы поддиапазона i группы k.

[0078] Далее, способ группирования будет описан с использованием ФИГ. с 8А по 8С. Предположим, что квантованная огибающая спектра, показанная на ФИГ. 8А, вводится в блок 301 идентификации диапазонов пиковой частоты. Блок 301 идентификации диапазонов пиковой частоты идентифицирует диапазоны 9 и 20 доминантных частот на основе введенной квантованной огибающей спектра (см. ФИГ. 8В).

[0079] Блоки с 302-1 по 302-N генерирования доминантных групп определяют поддиапазоны, центрированные на и с обеих сторон диапазонов 9 и 20 доминантных частот вплоть до поддиапазонов, где останавливается нисходящая кривая значения коэффициента нормы, в качестве идентичных доминантных групп. В примерах на ФИГ. с 8А по 8С, что касается диапазона 9 доминантной частоты, поддиапазоны с 6 по 12 определяются в качестве доминантной группы (группы 2), в то время как для диапазона 20 доминантной частоты, поддиапазоны с 17 по 22 определяются в качестве доминантной группы (группы 4) (см. ФИГ. 8С).

[0080] Блок 303 определения недоминантных групп определяет непрерывные диапазоны частот, отличные от доминантных групп, в качестве недоминантных групп без диапазонов доминантных частот. В примере на ФИГ. с 8А по 8С поддиапазоны с 1 по 5 (группа 1), поддиапазоны с 13 по 16 (группа 3) и поддиапазоны с 23 по 25 (группа 5) определяются в качестве недоминантных групп соответственно (см. ФИГ. 8С).

[0081] В результате квантованные огибающие спектра разбиваются на пять групп, то есть две доминантные группы (группы 2 и 4) и три недоминантные группы (группы 1, 3 и 5).

[0082] С использованием такого способа группирования можно адаптивно определять ширину групп согласно характеристикам входного сигнала. Согласно этому способу устройство декодирования аудио/речи также использует доступные квантованные коэффициенты нормы и поэтому отсутствует необходимость в передаче дополнительной информации устройству декодирования аудио/речи.

[0083] Следует отметить, что блок 306 вычисления дисперсии нормы вычисляет специфическую для группы дисперсию нормы. В примерах на ФИГ. с 8А по 8С дисперсия Energyvar(G(2)) нормы в группе 2 показана на ФИГ. 9 в качестве ссылки.

[0084] Далее будет описана значимость с точки зрения восприятия. Спектр речевого/аудиосигнала в общем включает в себя множество пиков (возвышенностей) и провалов. Пик составлен из компоненты спектра, расположенной на доминантной частоте речевого/аудиосигнала (доминантная компонента звука). Пик является очень значимым (важным) с точки зрения восприятия. Значимость с точки зрения восприятия пика может быть определена разностью между энергией пика и энергией провала, то есть дисперсией нормы. Теоретически, когда пик обладает достаточно большой энергией в сравнении с соседними диапазонами частот, пик должен быть кодирован с достаточным числом битов, но если пик кодируется с недостаточным числом битов, становится заметным примешиваемый шум кодирования, что вызывает ухудшение качества звука. С другой стороны, провал не составлен из какой-либо доминантной компоненты звука речевого/аудиосигнала и не является значимым с точки зрения восприятия.

[0085] Согласно способу группирования диапазонов частот из настоящего варианта осуществления диапазон доминантной частоты соответствует пику спектра и группирование диапазонов частот означает отделение пиков (доминантных групп, включающих в себя диапазоны доминантных частот) от провалов (недоминантных групп без диапазонов доминантных частот).

[0086] Блок 308 распределения битов группам определяет значимость с точки зрения восприятия пика. В отличие от подхода G.719, в котором значимость с точки зрения восприятия определяется только энергией, настоящий вариант осуществления определяет значимость с точки зрения восприятия на основе и энергии, и распределений нормы (энергии), и определяет биты, которые должны быть распределены каждой группе, на основе определенной значимости с точки зрения восприятия.

[0087] В блоке 309 распределения битов поддиапазонам, когда дисперсия нормы в группе является большой, это означает, что эта группа является одним из пиков, причем пик является более значимым с точки зрения восприятия и коэффициент нормы, имеющий максимальное значение, должен быть кодирован точно. По этой причине, каждому поддиапазону этого пика распределяется большее количество битов. С другой стороны, когда дисперсия нормы в группе очень маленькой, это означает, что эта группа является одним из провалов и причем провал не является значимым с точки зрения восприятия, и не нуждается в точном кодировании . По этой причине, каждому поддиапазону этой группы распределяется меньшее количество битов.

[0088] Таким образом, настоящий вариант осуществления идентифицирует диапазон доминантной частоты, в котором значение коэффициента нормы в спектре входного речевого/аудиосигнала имеет значение локального максимума, группирует все поддиапазоны в доминантные группы, включающие в себя диапазон доминантной частоты, и недоминантные группы, не включающие в себя какой-либо диапазон доминантной частоты, распределяет биты каждой группе на основе специфической для группы энергии и дисперсий нормы, и дополнительно распределяет биты, распределенные на погрупповой основе, каждому поддиапазону согласно отношению нормы к энергии каждой группы. Таким образом, можно выделять большее количество битов значимым с точки зрения восприятия группам и поддиапазонам, и выполнять эффективное распределение битов. В результате может быть улучшено качество звука.

[0089] Следует отметить, что коэффициент нормы в настоящем варианте осуществления представляет собой энергию поддиапазона и также упоминается как "огибающая энергии".

[0090] Раскрытие заявки на патент Японии No. 2012-272571, поданной 13 декабря 2012, в том числе описание, чертежи и реферат полностью включены в этот документе по ссылке.

ПРОМЫШЛЕННАЯ ПРИМЕНИМОСТЬ

[0091] Устройство кодирования аудио/речи, устройство декодирования аудио/речи, способ кодирования аудио/речи и способ декодирования аудио/речи согласно настоящему изобретению применимы к устройству терминала радиосвязи, устройству базовой станции радиосвязи, устройству терминала телефонной конференцсвязи, устройству терминала видеоконференцсвязи и устройству терминала передачи голоса по протоколу IP (VoIP) или подобному.

СПИСОК ССЫЛОЧНЫХ ПОЗИЦИЙ

[0092]

101 Блок обнаружения перехода

102 Блок преобразования

103 Блок оценки нормы

104 Блок квантования нормы

105 Блок нормализации спектра

106, 203 Блок корректировки нормы

107, 204 Блок выделения битов

108 Блок кодирования вектора решетки

109 Блок корректировки уровня шума

110 Мультиплексор

201 Демультиплексор

202 Блок деквантования нормы

205 Блок декодирования решетки

206 Генератор наполнения спектра

207 Блок суммирования

208 Блок формирования огибающей

209 Блок обратного преобразования

301 Блок идентификации диапазонов доминантных частот

С 302-1 по 302-N блок определения доминантных групп

303 Блок определения недоминантных групп

304 Блок вычисления энергии группы

305 Блок вычисления суммарной энергии

306 Блок вычисления дисперсии нормы

307 Блок вычисления полной дисперсии нормы

308 Блок распределения битов группам

309 Блок распределения битов поддиапазонам

1. Устройство кодирования аудио/речи, содержащее:

блок преобразования, который преобразует входной сигнал из временной области в частотную область;

блок оценки, который оценивает огибающую энергии, которая представляет уровень энергии для каждого из множества поддиапазонов, получаемых посредством разбиения частотного спектра входного сигнала;

блок квантования, который квантует огибающие энергии;

блок определения групп, который группирует квантованные огибающие энергии во множество групп;

первый блок выделения битов, который выделяет биты упомянутому множеству групп;

второй блок выделения битов, который выделяет упомянутые биты, выделенные упомянутому множеству групп, поддиапазонам на погрупповой основе; и

блок кодирования, который кодирует частотный спектр с использованием битов, выделенных поддиапазонам,

при этом блок определения групп определяет диапазон доминантной частоты, который является поддиапазоном, в котором огибающая энергии частотного спектра имеет значение локального максимума, и поддиапазоны с обеих сторон диапазона доминантной частоты, каждый из которых формирует нисходящую кривую огибающей энергии, в качестве доминантных групп, и определяет непрерывные поддиапазоны, отличные от диапазона доминантной частоты, в качестве недоминантных групп.

2. Устройство кодирования аудио/речи по п. 1, дополнительно содержащее:

блок вычисления энергии, который вычисляет специфическую для группы энергию; и

блок вычисления распределения, который вычисляет распределение огибающей специфической для группы энергии, при этом

первый блок выделения битов выделяет, на основе вычисленной специфической для группы энергии и распределения огибающей специфической для группы энергии, большее количество битов группе, когда по меньшей мере одно из энергии и распределения огибающей энергии больше, и выделяет меньшее количество битов группе, когда по меньшей мере одно из энергии и распределения огибающей энергии меньше.

3. Устройство кодирования аудио/речи по п. 1, при этом второй блок выделения битов выделяет большее количество битов поддиапазону, имеющему огибающую большей энергии, и выделяет меньшее количество битов поддиапазону, имеющему огибающую меньшей энергии.

4. Устройство декодирования аудио/речи, содержащее:

блок деквантования, который осуществляет деквантование квантованной огибающей спектра;

блок определения групп, который группирует квантованные огибающие спектра во множество групп;

первый блок выделения битов, который выделяет биты упомянутому множеству групп;

второй блок выделения битов, который выделяет упомянутые биты, выделенные упомянутому множеству групп, поддиапазонам на погрупповой основе;

блок декодирования, который декодирует частотный спектр речевого/аудиосигнала с использованием битов, выделенных поддиапазонам;

блок формирования огибающей, который применяет деквантованную огибающую спектра к декодированному частотному спектру и воспроизводит декодированный спектр; и

блок обратного преобразования, который обратно преобразует декодированный спектр из частотной области во временную область,

при этом блок определения групп определяет диапазон доминантной частоты, который является поддиапазоном, в котором огибающая энергии частотного спектра имеет значение локального максимума, и поддиапазоны с обеих сторон диапазона доминантной частоты, каждый из которых формирует нисходящую кривую огибающей энергии, в качестве доминантных групп, и определяет непрерывные поддиапазоны, отличные от диапазона доминантной частоты, в качестве недоминантных групп.

5. Устройство декодирования аудио/речи по п. 4, дополнительно содержащее:

блок вычисления энергии, который вычисляет специфическую для группы энергию; и

блок вычисления распределения, который вычисляет огибающую специфической для группы энергии, при этом

первый блок выделения битов выделяет, на основе вычисленной специфической для группы энергии и распределения огибающей специфической для группы энергии, большее количество битов группам, когда по меньшей мере одно из энергии и распределения огибающей энергии больше, и выделяет меньшее количество битов группам, когда по меньшей мере одно из энергии и распределения огибающей энергии меньше.

6. Устройство декодирования аудио/речи по п. 4, при этом второй блок выделения битов выделяет большее количество битов поддиапазонам, имеющим огибающую большей энергии, и выделяет меньшее количество битов поддиапазонам, имеющим огибающую меньшей энергии.

7. Способ кодирования аудио/речи, содержащий:

преобразование входного сигнала из временной области в частотную область;

оценку огибающей энергии, которая представляет уровень энергии для каждого из множества поддиапазонов, получаемых посредством разбиения частотного спектра входного сигнала;

квантование огибающих энергии;

группирование квантованных огибающих энергии во множество групп;

выделение битов упомянутому множеству групп;

выделение битов, выделенных упомянутому множеству групп, поддиапазонам на погрупповой основе; и

кодирование частотного спектра с использованием битов, выделенных поддиапазонам,

при этом, при упомянутом группировании, определяют диапазон доминантной частоты, который является поддиапазоном, в котором огибающая энергии частотного спектра имеет значение локального максимума, и поддиапазоны с обеих сторон диапазона доминантной частоты, каждый из которых формирует нисходящую кривую огибающей энергии, в качестве доминантных групп, и определяют непрерывные поддиапазоны, отличные от диапазона доминантной частоты, в качестве недоминантных групп.

8. Способ декодирования аудио/речи, содержащий:

деквантование квантованной огибающей спектра;

группирование квантованной огибающей спектра во множество групп;

выделение битов упомянутому множеству групп;

выделение упомянутых битов, выделенных упомянутому множеству групп, поддиапазонам на погрупповой основе;

декодирование частотного спектра речевого/аудиосигнала с использованием битов, выделенных поддиапазонам;

применение деквантованной огибающей спектра к декодированному частотному спектру и воспроизведение декодированного спектра; и

обратное преобразование декодированного спектра из частотной области во временную область,

при этом, при упомянутом группировании, определяют диапазон доминантной частоты, который является поддиапазоном, в котором огибающая энергии частотного спектра имеет значение локального максимума, и поддиапазоны с обеих сторон диапазона доминантной частоты, каждый из которых формирует нисходящую кривую огибающей энергии, в качестве доминантных групп, и определяют непрерывные поддиапазоны, отличные от диапазона доминантной частоты, в качестве недоминантных групп.



 

Похожие патенты:

Изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных.

Изобретение относится к области кодирования и декодирования аудио сигналов. Технический результат – повышение качества кодирования и декодирования аудио сигналов и исключение потери битов.

Изобретение относится к области кодирования и декодирования звуковых сигналов. Технический результат – повышение точности восстановления звуковых сигналов.

Изобретение относится к области техники обработки речи, в частности к адаптивному расширению полосы пропускания. Технический результат – обеспечение формирования расширенной полосы пропускания частот в декодере.

Изобретение относится к средствам для маскирования ошибок при кодировании/декодировании аудио. Технический результат заключается в восстановлении качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио.

Изобретение относится к кодированию и декодированию аудиосигналов и предназначено для кодирования и декодирования сигнала, соответствующего диапазону высоких частот аудиосигнала.

Группа изобретений относится к области кодирования. Техническим результатом является повышение эффективности сжатия данных.

Группа изобретений относится к области кодирования. Техническим результатом является повышение эффективности сжатия данных.

Изобретение относится к кодированию спектральных коэффициентов спектра аудиосигнала, используемого в различных аудиокодеках на основе преобразования. Технический результат – повышение эффективности кодирования спектральных коэффициентов спектра аудиосигнала за счет кодирования/декодирования спектрального коэффициента, подлежащего кодированию/декодированию в данный момент времени, путем энтропийного кодирования/декодирования.

Изобретение относится к технике связи. Технический результат – повышение эффективности кодирования со сжатием и повышение качества сигнала.

Изобретение относится к акустике, в частности, к устройствам для декодирования аудиосигналов. Аудиодекодер содержит модуль декодирования базовой полосы, модуль расширения полосы частот и средство комбинирования аудиосигнала базовой полосы и аудиосигнала расширения полосы частот.

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в возможности разделения рассеянных и нерассеянных частей N входных звуковых сигналов.

Изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных.

Изобретение относится к кодированию аудио и, в частности, к пространственному кодированию аудиообъектов. Технический результат заключается в повышении эффективности сжатия при высоком качестве звука.

Изобретение относится к области кодирования и декодирования аудио сигналов. Технический результат – повышение качества кодирования и декодирования аудио сигналов и исключение потери битов.

Настоящее изобретение раскрывает средства для обработки аудиоданных и относится к области техники связи. Технический результат заключается в уменьшении полосы пропускания и повышении качества кодирования аудиоданных.

Изобретение относится к области кодирования и декодирования звуковых сигналов. Технический результат – повышение точности восстановления звуковых сигналов.

Изобретение относится к области аудиокодирования и аудиодекодирования для обеспечения кодированной и декодированной аудиоинформации соответственно на основании входной аудиоинформации и на основании кодированной аудиоинформации.

Изобретение относится к области многоканального звукового кодирования. Техническим результатом является декодирование кодированного битового аудиопотока в системе обработки звуковых сигналов.

Изобретение относится к средствам для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для регулировки усиления. Технический результат заключается в повышении точности восстановления сигнала в приемном устройстве и уменьшении слышимых артефактов. Способ обработки сигнала включает в себя определение минимального разнесения между парами спектральных линий (LSP) для пар LSP полосы высоких частот кадра принятого аудиосигнала. На основе минимального разнесения между LSP определяют, что часть полосы высоких частот принятого аудиосигнала включает в себя компонент, соответствующий условию формирования артефактов. Причем принятый аудиосигнал определяют как включающий в себя упомянутый компонент по меньшей мере частично в ответ на то, что минимальное разнесение между LSP удовлетворяет пороговому значению. В ответ на определение того, что часть полосы высоких частот принятого аудиосигнала включает в себя упомянутый компонент, регулируют параметр усиления полосы высоких частот, соответствующий части полосы высоких частот принятого аудиосигнала. Формируют выходной поток битов, причем выходной поток битов формируют на основе отрегулированного параметра усиления полосы высоких частот. 5 н. и 32 з.п. ф-лы, 6 ил.
Наверх