Устройство и способ декодирования кодированного звукового сигнала



Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала
Устройство и способ декодирования кодированного звукового сигнала

 


Владельцы патента RU 2483366:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен (DE)

Изобретение относится к устройство для декодирования (100) кодированного аудиосигнала (102), а также к устройству и способу кодирования звукового сигнала. Устройство включает в себя первый декодер (110а), второй декодер (110b), BWE модуль (130) и контроллер (140). Первый декодер (110а) декодирует первую часть (104а) в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала (102) для получения первого декодированного сигнала (114а). Второй декодер (110b) декодирует вторую часть (104b) в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала (102) для получения второго декодированного сигнала (114b). BWE модуль (130) имеет управляемую частоту переключения (FX) и предназначен для выполнения алгоритма расширения ширины спектра, используя первый декодированный сигнал (114а) и BWE параметры (106) для первой части (104b), а также для выполнения алгоритма расширения ширины спектра, используя второй декодированный сигнал (114b) и параметр расширения ширины спектра (106) для второй части (104b). Контроллер (140) управляет частотой переключения (FX) для BWE модуля (130) в соответствии с информацией о режиме кодирования (108). Технический результат - обеспечение получения адаптированной частоты переключения вместе с гибким выбором используемого основного кодера, при этом кодированный сигнал обеспечивает повышение качества восприятия. 6 н. и 8 з.п. ф-лы, 11 ил.

 

Заявляемое изобретение относится к устройству декодирования кодированного аудиосигнала, а также к устройству и способу кодирования звукового сигнала.

Широко известны такие схемы кодирования частотной области, как МР3 или ААС. Эти кодеры частотной области основаны на преобразовании из временной в частотную область, последующем этапе квантования, в ходе которого ошибка квантования контролируется с помощью информации из психоакустического модуля, и этапе кодирования, в ходе которого квантованные спектральные коэффициенты и соответствующая дополнительная информация энтропийно кодируются с помощью кодовых таблиц.

С другой стороны, существуют кодеры, которые очень хорошо подходят для обработки речи, такие как AMR-WB+, как описано в 3GPP TS 26,290. Такие схемы кодирования речи используют линейно предсказуемую LP фильтрацию временной области. Такая LP фильтрация основывается на линейном предиктивном анализе входного сигнала временной области. Полученные в результате коэффициенты фильтрации линейного предсказания затем кодируются и передаются в виде дополнительной информации. Этот процесс известен как линейное кодирование с предсказанием (LPC). На выходе фильтра предсказанный остаточный сигнал или сигнал с ошибкой предсказания, который также известен как возбуждающий сигнал, кодируется с помощью анализа через синтез в ACELP кодере или, наоборот, кодируется с помощью кодера с преобразованием, который использует преобразование Фурье с перекрытием. Выбор между ACELP кодированием и кодированием с преобразованием инициирующего сигнала, который также называют ТСХ кодированием, осуществляется с помощью алгоритма замкнутой петли или алгоритма открытой петли.

Схемы аудиокодирования частотной области, такие как высокоэффективная схема кодирования ААС, которая сочетает в себе схемы кодирования ААС и технику спектральной репликации диапазона частот, также могут использоваться вместе с приемом стерео- или многоканального кодирования, который известен как " MPEG Surround". С другой стороны, кодеры речи, такие как AMR-WB+ также включают этап повышения частот и являются функциональными с точки зрения стереосигнала.

Упомянутая репликация спектрального диапазона (SBR) включает в себя метод, который завоевал популярность в качестве дополнения к популярным кодерам аудио восприятия, таким как МР3 и Advanced Audio Coding (ААС). Репликация спектрального диапазона (SBR) включают в себя метод расширения диапазона (BWE), в котором нижний диапазон (базовый диапазон или основной диапазон) спектра кодируется с использованием существующих кодеров, в то время как верхний диапазон (или высший диапазон) подвергается анализу с использованием меньшего числа параметров. В SBR используется корреляция между нижним диапазоном и верхним диапазоном, для того чтобы прогнозировать сигнал высокого диапазона, извлекая его из характеристик сигнала нижнего диапазона.

SBR, например, используется в НЕ-ААС или ААС+SBR. В SBR можно динамически изменять частоту разделения (BWE начальную частоту), а также временное разрешение, то есть число наборов параметров (конвертов) на кадр. AMR-WB+осуществляет расширение ширины спектра сигнала вместе с кодером, который выполняет преобразование из временной в частотную область, обеспечивая хорошее качество звука, особенно для речевых сигналов. Фактором, ограничивающим AMR-WB+ качество звука, является ширина спектра звукового сигнала, общая для обоих основных кодеков и начальной частоты BWE, которая составляет одну четверть от внутренней частоты дискретизации системы. Хотя модель речи в ACELP способна моделировать сигналы речи достаточно хорошо для всего спектра сигнала, аудиокодер частотной области не может предоставить достойного качества для некоторых общих аудиосигналов. Таким образом, схемы кодирования речи демонстрируют высокое качество для речевых сигналов даже при низкой скорости передачи, но показывают низкое качество для музыкальных сигналов при низкой скорости передачи данных.

Схемы кодирования частотной области, такие как НЕ-ААС, полезны тем, что они показывают высокое качество при низкой скорости передачи данных для музыкальных сигналов. Проблематично, однако, качество речевых сигналов при низкой скорости передачи данных.

Таким образом, различные классы аудиосигналов требуют различных характеристик расширения ширины спектра.

Задачей данного изобретения является обеспечение улучшения концепции кодирования/декодирования.

Эта задача достигается тем, что аудиодекодер выполнен согласно п.1 формулы изобретения, способ декодирования реализован согласно п.13 формулы изобретения, кодер выполнен согласно п.8, способ кодирования - согласно п.14, кодированный сигнал реализован согласно п.15 и компьютерная программа - согласно п.16.

Настоящее изобретение основано на том, что частота разделения или начальная частота BWE является параметром, влияющим на качество звука. Хотя кодеки временной области (речевые) обычно кодируют весь частотный диапазон для данной частоты дискретизации, ширина спектра аудиосигнала является изменяемым параметром для кодеров, использующих преобразования (например, кодеры для музыки), так как уменьшение общего числа спектральных линий для кодирования будет, в то же время, увеличивать число битов на спектральную линию, готовую для кодирования, то есть происходит поиск компромисса между качеством звука и шириной спектра. Следовательно, в новом подходе, различные совпадающие кодеры с переменной шириной спектра аудиосигнала объединяются в коммутируемую систему с одним общим BWE модулем, при этом BWE модуль должен учитывать разную ширину спектра аудиосигнала.

Простым способом было бы найти самую низкую из всех основных ширину спектра кодера и использовать ее как начальную частоту BWE, но это ухудшит качество воспринимаемого звука. Кроме того, эффективность кодирования снизится, так как во временных отрезках, где основной кодер активен и имеет более высокую ширину спектра, чем начальная частота BWE, некоторые частотные области будут представлены два раза: основным кодером и BWE, что вызовет избыточность. Поэтому лучшим решением будет адаптировать начальную частоту BWE к ширине спектра аудиосигнала, используемой основным кодером.

Поэтому в соответствии со способами использования настоящего изобретения, система кодирования аудиосигнала сочетает в себе инструмент для расширения ширины спектра и основной кодер, который определяется сигналом (например, переключаемый кодер речи/звука), причем частота разделения включает переменный параметр. Классификатор выходного сигнала, который управляет переключением между различными режимами основного кодирования, может также использоваться для переключения характеристик системы BWE, таких как временное разрешение и размытие, спектральное разрешение и частота разделения каналов.

Таким образом, одним из аспектов настоящего изобретения является аудиодекодер для кодированного звукового сигнала; кодированный звуковой сигнал, включающий первую часть, кодированную в соответствии с первым алгоритмом кодирования, и вторую часть, кодированную в соответствии со вторым алгоритмом кодирования; параметр BWE для первой части и для второй части; информацию о режиме кодирования, указывающую на первый алгоритм декодирования или второй алгоритм декодирования, включая первый декодер, второй декодер, BWE модуль и контроллер. Первый декодер декодирует первую часть в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала для того, чтобы получить первый декодированный сигнал. Второй декодер декодирует вторую часть в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала для получения второго декодированного сигнала. BWE модуль имеет контролируемую частоту разделения и сконфигурирован для выполнения алгоритма расширения ширины спектра при помощи первого декодированного сигнала и параметров BWE для первой части; и для выполнения алгоритма расширения ширины спектра при помощи второго декодированного сигнала и параметра расширения ширины спектра для второй части. Контроллер управляет частотой разделения для BWE модуля в соответствии с информацией о режиме кодирования.

В соответствии с другим аспектом настоящего изобретения, устройство для кодирования звукового сигнала включает первый и второй кодеры, блок выбора и BWE модуль. Первый кодер предназначен для кодирования в соответствии с первым алгоритмом кодирования, при этом первый алгоритм кодирования имеет первую частоту ширины спектра. Второй кодер предназначен для кодирования в соответствии со вторым алгоритмом кодирования, при этом второй алгоритм кодирования имеет вторую частоту ширины спектра, которая меньше, чем первая частота ширины спектра. Блок выбора задает первый алгоритм кодирования для первой части звукового сигнала и второй алгоритм кодирования для второй части звукового сигнала, при этом вторая часть отличается от первой части. Модуль расширения ширины спектра рассчитывает параметры BWE для аудиосигнала, при этом BWE модуль сконфигурирован блоком выбора для расчета параметров BWE для полосы спектра, исключая первую частоту ширины спектра в первой части звукового сигнала и исключая вторую частоту ширины спектра во второй части звукового сигнала.

В отличие от данного изобретения и согласно предыдущей практике SBR применяется только к некоммутируемому аудиокодеку, что приводит к следующим недостаткам: и временное разрешение, и частота переключения может применяться динамически, но последние изобретения, такие как 3GPP источник обычно применяют только изменение временного разрешения для переходных сигналов, как, например, кастаньеты. Кроме того, более точное временное разрешение может быть выбрано на более высокой скорости передачи в качестве изменяемого параметра, определяемого скоростью передачи данных. Не проводится явная классификация для определения временного разрешения или порога выбора, управляющего временным разрешением, наиболее подходящего для типа сигнала, как, например, для стационарного сигнала, тональной музыки или речи. Использование данного изобретения помогает преодолеть эти недостатки. Данное изобретение позволяет получить специально адаптированную частоту переключения вместе с гибким выбором используемого основного кодера так, что кодированный сигнал обеспечивает значительно лучшее качество восприятия по сравнению с ранее известными кодерами/декодерами.

Предпочтительные варианты использования изобретения описаны ниже в соответствии с прилагаемыми изображениями:

На Фиг.1 показана блок-схема устройства для декодирования в соответствии с первым вариантом заявляемого изобретения;

На Фиг.2 показана блок-схема устройства для кодирования в соответствии с первым вариантом заявляемого изобретения;

На Фиг.3 более подробно показана блок-схема кодирования;

На Фиг.4 более подробно показана блок-схема декодирования;

На Фиг.5 показана схема кодирования в соответствии со вторым вариантом реализации изобретения;

На Фиг.6 показана схема декодирования в соответствии со вторым вариантом реализации изобретения;

На Фиг.7 проиллюстрирован этап линейного кодирования с предсказанием со стороны кодера для получения краткосрочного прогнозирования информации и сигнала ошибки прогнозирования;

На Фиг.8 проиллюстрирован иной способ использования устройства LPC для получения взвешенного сигнала;

На Фиг.9а-9b показан кодер, включающий в себя переключатель звука/речи для получения различного временного разрешения звукового сигнала, и

На Фиг.10 проиллюстрировано представление кодированного аудиосигнала.

Фиг.1 показывает устройство декодера 100 для декодирования кодированного аудиосигнала 102. Кодированный аудиосигнал 102 состоит из первой части 104а, кодированной в соответствии с первым алгоритмом кодирования, второй части 104b, кодированной в соответствии со вторым алгоритмом кодирования, BWE параметра 106 для первой временной части 104а и для второй временной части 104b и информации о режиме кодирования 108, указывающей на первый алгоритм декодирования или второй алгоритм декодирования для соответствующих временных частей. Аппарат для декодирования 100 включает первый декодер 110а, второй декодер 110b, BWE модуль 130 и контроллер 140. Первый декодер 110а адаптирован для декодирования первой части 104а в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала 102 для получения первого декодированного сигнала 114а. Второй декодер 110b предназначен для декодирования второй части 104b в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала для получения второго декодированного сигнала 114b. BWE модуль 130 имеет управляемую частоту переключения FX, которая регулирует поведение модуля BWE 130. BWE модуль 130 предназначен для выполнения алгоритма расширения ширины спектра для того, чтобы генерировать компоненты звукового сигнала в верхней частоте полосы на основе первого декодированного сигнала 114а и параметров BWE 106 для первой части, и чтобы генерировать компоненты звукового сигнала в верхней частоте полосы на основе второго декодированного сигнала 114b и параметра расширения ширины спектра 106 для второй части. Контроллер 140 предназначен для контроля частоты переключения FX в BWE модуле 130 в соответствии с информацией о режиме кодирования 108.

BWE модуль 130 может включать также блок объединения компонентов аудиосигнала нижнего и верхнего диапазонов частот и в результате генерировать звуковой сигнал 105.

Информация о режиме кодирования 108 указывает, например, какая временная часть кодированного аудиосигнала 102 кодируется каким алгоритмом кодирования. Эта информация может в то же время указывать на декодер, который будет использоваться для различных временных частей. Кроме того, информация о режиме кодирования 108 может контролировать переключатель для переключения между различными декодерами для разных временных частей.

Следовательно, частота переключения FX - это регулируемый параметр, который корректируется в соответствии с используемым декодером, который может, например, содержать речевой кодер в качестве первого декодера 110а и аудиодекодер в качестве второго декодера 110b. Как было сказано выше, частота переключения FX для речевого декодера (как, например, на основе LPC) может быть выше, чем частота переключения, используемая для аудиодекодера (например, для музыки). Таким образом, в других способах использования изобретения, контроллер 220 предназначен для увеличения частоты переключения FX или для уменьшения частоты переключения FX в одной из временных частей (например, во второй временной части), так что частота переключения может быть изменена без изменения алгоритма декодирования. Это означает, что изменение частоты переключения может быть не связано с изменением используемого декодера: частота переключения может быть изменена без изменения используемого декодера или наоборот декодер может быть изменен без изменения частоты переключения.

BWE модуль 130 может также включать переключатель, который управляется контроллером 140 и/или параметром BWE 106 так, что первый декодированный сигнал 114а обрабатывается с помощью BWE модуля во время первой временной части и второй декодированный сигнал 114b обрабатывается с помощью BWE модуля во время второй временной части. Этот переключатель может быть активирован с помощью изменения частоты переключения FX или с помощью заданного бита в кодированном аудиосигнале 102, указывающего на используемый алгоритм кодирования в соответствующей временной части.

В других способах использования изобретения, переключатель предназначен для переключения между первой и второй временной частью из первого декодера ко второму декодеру так, что алгоритм расширения ширины спектра применяется либо к первому декодированному сигналу, либо ко второму декодированному сигналу. Кроме того, алгоритм расширения ширины спектра применяется к первому и/или второму декодированному сигналу, а переключатель ставится после этого так, что один из сигналов с расширенным спектром пропускается.

Фиг.2 показывает блок-схему устройства 200 для кодирования аудиосигнала 105. Это устройство для кодирования 200 включает в себя первый кодер 210а, второй кодер 210b, блок управления (выбора) 220 и модуль расширения ширины спектра (BWE модуль) 230. Первый кодер 210а работает для кодирования в соответствии с первым алгоритмом кодирования, имея первую частоту ширины спектра. Второй кодер 210b работает для кодирования в соответствии со вторым алгоритмом кодирования, имея вторую частоту ширины спектра, которая меньше, чем первая частота ширины спектра. Первый кодер может, например, быть речевым кодером, основанным на LPC, в то время как второй кодер 210b может содержать аудио (музыкальный) кодер. Блок управления 220 предназначен для того, чтобы указать первый алгоритм кодирования для первой части 204а звукового сигнала 105 и указать второй алгоритм кодирования для второй части 204b звукового сигнала 105, при этом вторая временная часть отличается от первой временной части. Первая часть 204а может соответствовать первой временной части, а вторая часть 204b может соответствовать второй временной части, которая отличается от первой временной части.

BWE модуль 230 предназначен для расчета параметров BWE 106 для аудиосигнала 105 и контролируется блоком управления 220 для расчета параметра BWE 106 для первой полосы, исключая первую частоту ширины спектра в первой временной части 204а звукового сигнала 105. BWE модуль 230 дополнительно сконфигурирован для расчета параметра BWE 106 для второй полосы, исключая вторую частоту ширины спектра во второй временной части 204b аудиосигнала 105. Следовательно, первая (вторая) полоса включает в себя компоненты частоты звукового сигнала 105, которые находятся вне первой (второй) частоты ширины спектра и ограничены по отношению к нижней части спектра частотой переключения FX. Первая или вторая ширина спектра может быть определена по переменной частоты переключения, которая контролируется блоком управления 220.

Кроме того, BWE модуль 230 может включать в себя переключатель, который контролируется блоком управления 220. Блок управления 220 может определить предпочтительный алгоритм кодирования для данной временной части и контролирует переключатель так, что в течение данной временной части используется предпочтительный кодер. Измененная информация о режиме кодирования 108' включает в себя соответствующий сигнал о переключении. Кроме того, BWE модуль 230 может также содержать фильтр для получения компонентов звукового сигнала 105 в нижней/верхней частоте полосы, которые отделены от частоты переключения FX, что может составлять около 4 кГц или 5 кГц. Наконец, BWE модуль 130 может также включать инструмент для анализа, чтобы определить параметр BWE 106. Измененная информация о режиме кодирования 108' может быть эквивалентной (или равной) информации о режиме кодирования 108. Информация о режиме кодирования 108 указывает, например, на используемый алгоритм кодирования для соответствующих временных частей в потоке кодированного аудио сигнала 105.

В соответствии с другими способами использования изобретения, модуль управления 220 содержит инструмент для классификации сигнала, который анализирует исходный входной сигнал 105 и создает управляющую информацию 108, которая вызывает выбор различных режимов кодирования. Анализ входного сигнала 105 зависит от варианта изобретения и используется с целью выбора оптимального основного режима кодирования для данного входного сигнала. Выход классификатора сигнала может (опционально) использоваться для изменения работы других инструментов, например MPEG Surround, расширения SBR, измененной шкалы времени в фильтрах и др. Вход для инструмента классификатора сигнала включает в себя, например, оригинальный/первоначальный неизмененный входной сигнал 105, но также необязательно дополнительные параметры, зависящие от способа использования. Выход классификатора сигнала включает в себя контрольный сигнал 108 для контроля за выбором основных кодеков (например, не-LP обработанные частотные области или LP обработанные временные или частотные области кодирования или следующие алгоритмы кодирования).

В соответствии со способами использования изобретения, частота переключения FX корректируется в зависимости от сигнала, что сопровождается решением о переключении для использования другого алгоритма кодирования. Таким образом, простое переключение сигнала может быть просто изменением (скачком) в частоте переключения FX. Кроме того, информация о режиме кодирования 108 может также содержать изменение частоты переключения FX, указывающее в то же время на предпочтительную схему кодирования (например, речь/аудио/музыка).

В соответствии с использованием изобретения, модуль управления 220 используется для того, чтобы анализировать аудиосигнал 105, или первый выходной сигнал первого кодера 210а, или второй выходной сигнал второго кодера 210b, или сигнал, полученный в результате декодирования выходного сигнала кодера 210а или второго кодера 210b no отношению к целевой функции. Модуль (блок) управления (выбора) 220 может быть использован для разграничения речи/музыки таким образом, что решению в пользу речи отдается предпочтение по сравнению с решением в пользу музыки. Решение в пользу речи принимается, например, даже если меньше 50% блока данных для первого переключателя является речью, а более 50% данных для первого переключателя является музыкой. Таким образом, модуль управления 220 может включать в себя инструмент для анализа, который анализирует аудиосигнал и приходит к выводу, является ли звуковой сигнал в основном речью или музыкой, для того чтобы на основе результатов этапа выбора можно было решить, какой кодек лучше использовать для проанализированной временной части из звукового сигнала.

Фиг.1 и 2 не показывают многие из этих деталей кодирования/декодирования. Возможные подробные примеры для кодирования/декодирования представлены на следующих рисунках. В дополнение к первому и второму декодерам 110а, b на фиг.1, могут быть представлены другие декодеры, которые могут быть использованы или нет, например алгоритмы дальнейшего кодирования. Таким же образом кодер 200 на фиг.2 может содержать дополнительные кодеры, которые могут использовать дополнительные алгоритмы кодирования. Далее пример с двумя кодерами/декодерами будет описан более подробно.

Фиг.3 иллюстрирует более подробно кодер с двумя каскадными коммутаторами. Моносигнал, стереосигнал или многоканальный сигнал являются входным сигналом для блока управления 220 и для переключателя 232, который является частью BWE модуля 230 на фиг.2. Переключатель 232 управляется на этапе выбора 220. Кроме того, модуль управления 220 может получить дополнительную информацию, которая включена в моносигнал, стереосигнал или многоканальный сигнал или, по крайней мере, связана с этим сигналом, где существует информация, которая была, например, создана при первоначальном производстве моносигнала, стереосигнала или многоканального сигнала.

Модуль управления 220 приводит в действие переключатель 232, чтобы передать сигнал либо в частотную кодированную часть 210b, которая проиллюстрирована на верхней ветви фиг.3, или в LPC-область кодированной части 210а, которая проиллюстрирована в нижней ветви на фиг.3. Одним из ключевых элементов ветви кодирования частотной области является блок спектрального преобразования 410, который активируется для преобразования выходного сигнала на стадии предварительной обработки (как описано ниже) в спектральную область. Блок спектрального преобразования может включать MDCT алгоритм, квадратурный зеркальный фильтр QMF, алгоритм быстрого преобразования Фурье FFT, вейвлет-анализ или банк фильтров, такой как дискретный банк с определенным числом каналов, где поддиапазонные сигналы могут быть вещественно значимыми или комплекснозначимыми сигналами. Выход блока спектрального преобразования 410 кодируется с помощью спектрального аудиокодера 421, который может включать обработку блоков, как известно из схемы кодирования ААС.

Как правило, обработка в ветви 210b использует метод обработки по модели, основанной на восприятии, или по информационной модели. Таким образом, эта ветвь построена по модели слуховой системы человека, воспринимающего звук. В противоположность этому, обработка в ветви 210а ведет к получению сигнала в инициирующей, остаточной или LPC области. Как правило, обработка в ветви 210а - это обработка, основанная на модели речи или модели порождения информации. Для речевых сигналов, эта модель является моделью человеческой речи/системой порождения звука. Однако если звук из другого источника, требующий другую систему порождения звука, должен быть закодирован, то обработка в ветви 210а может быть другой. В дополнение к показанным ветвям кодирования другие способы использования изобретения содержат дополнительные ветви или основные кодеры. Например, разные кодеры могут необязательно присутствовать для различных источников, так что звук от каждого источника может быть кодирован, используя предпочтительный кодер.

В нижней ветви кодирования 210а, ключевым элементом является устройство LPC 510, которое выводит LPC информацию, которая используется для контроля характеристик фильтра LPC. Эта информация LPC передается на декодер. На этапе LPC 510 выходной сигнал является сигналом LPC области, который состоит из сигнала возбуждения и/или взвешенного сигнала.

Устройство LPC обычно выводит сигнал LPC области, который может быть любым сигналом в области LPC или любым другим сигналом, который был сформирован путем применения коэффициентов LPC фильтра для аудиосигнала. Кроме того, устройство LPC также может определить эти коэффициенты, а также может квантовать/кодировать эти коэффициенты.

Выбор в блоке управления 220 может быть скорректирован сигналом так, что на этапе выбора происходит разграничение музыки/речи и осуществляется управление переключателем 232 таким образом, что музыкальные сигналы входят в верхнюю ветвь 210b, а речевые сигналы входят в нижнюю ветвь 210а. В одном из вариантов использования изобретения, на этапе выбора 220 информация о выборе передается в выходной поток битов так, что декодер может использовать эту информацию для того, чтобы произвести правильные операции декодирования. Эта информация о выборе может, например, включать информацию о режиме кодирования 108, которая также может включать информацию о частоте переключения FX или изменении частоты переключения FX.

Такой декодер показан на фиг.4. Выходной сигнал спектрального аудиокодера 421, после передачи, входит в спектральный аудиодекодер 431. Выход из спектрального аудио декодера 431 направляется на вход конвертера временной области 440 (конвертер временной области может быть в общем конвертером из первой области во вторую область). Аналогично, выход из ветви кодирования области LPC 210а на фиг.3 получен на стороне декодера и обработан элементами 531, 533, 534 и 532 для получения сигнала возбуждения LPC. Сигнал возбуждения LPC вводится на стадии LPC синтеза 540, которая получает, в качестве еще одного входа, информацию LPC, полученную на соответствующей стадии анализа LPC 510. Выходной сигнал из конвертера временной области 440 и/или выход из стадии синтеза LPC 540 направляется в переключатель 132, который может быть частью BWE модуля 130 на фиг.1. Переключатель 132 управляется с помощью сигнала управления переключателем (например, информации о режиме кодирования 108 и/или параметра BWE 106), который был, например, получен блоком управления 220, или который был получен извне от источника исходного моносигнала, стереосигнала или многоканального сигнала.

На фиг.3, входной сигнал переключателя 232 и блока управления 220 может быть моносигналом, стереосигналом, многоканальным сигналом или вообще любым аудиосигналом. Переключатель переключает между ветвью кодирования частот 210b и ветвью кодирования LPC 210а в зависимости от выбора, который может быть сделан с помощью переключателя 232 входного сигнала или с помощью любого внешнего источника, такого как источник аудио сигнала, лежащего в основе входного сигнала на стадии 232. Ветвь кодирования частоты 210b включает стадию спектрального преобразования 410 и последующую стадию квантования/кодирования 421. Стадия квантования/кодирования может включать любое из функциональных средств, известных для современных кодеров временной области, таких как кодер ААС. Кроме того, операции квантования на стадии квантования/ кодирования 421 могут управляться с помощью психоакустического модуля, который генерирует психоакустическую информацию, такую как психоакустический порог маскирования по частоте, где эта информация вводится на стадии 421.

В ветви кодирования LPC 210а выходной сигнал обрабатывается с помощью стадии анализа LPC 510, где генерируется служебная информация LPC и сигнал области LPC. Кодер возбуждения может содержать дополнительный переключатель для переключения дальнейшей обработки сигнала области LPC между операцией квантования/кодирования 522 в области LPC или стадии квантования/кодирования 524, которое обрабатывает значения в LPC-спектральной области. Для этой цели спектральный преобразователь 523 осуществляется на входе стадии квантования/кодирования 524. Переключатель 521 управляется в форме открытой петли или закрытой петли в зависимости от конкретных условиях, как, например, описано в технической спецификации AMR-WB+.

В режиме управления закрытой петлей, кодер дополнительно включает обратный квантователь/кодер 531 для сигнала области LPC, обратный квантователь/кодер 533 для сигнала спектральной области LPC и обратный спектральный преобразователь 534 для сигнала на выходе блока 533. И кодированные, и снова декодированные сигналы в обрабатывающих ветвях второй ветви кодирования вводятся в устройство управления переключателем 525. В устройстве управления переключателем 525 эти два выходных сигнала сравниваются друг с другом и/или целевой функцией или целевая функция рассчитывается на основе сравнения искажений в обоих сигналах таким образом, что сигнал с меньшими искажениями используется для выбора, какую позицию должен занять переключатель 521. Кроме того, в случае, если обе ветви представляют непостоянную скорость передачи, ветвь, представляющая более низкую скорость передачи, может быть выбрана, даже если искажение или искажение восприятия этой ветви ниже, чем искажение или искажение восприятия другой ветви (примером искажения может быть соотношение сигнал/шум). Кроме того, целевая функция может использовать в качестве входа искажение каждого сигнала и скорость передачи данных каждого сигнала и/или дополнительные критерии для того, чтобы найти лучшее решение для конкретной цели. Если, например, цель состоит в том, чтобы скорость передачи была как можно ниже, то целевая функция будет очень сильно зависеть от скорости передачи двух сигналов выхода из элементов 531, 534. Однако когда основной целью является лучшее качество для определенной скорости передачи данных, то блок управления переключателем 525 может, например, отвергнуть каждый сигнал, скорость которого выше допустимой скорости и, когда скорость обоих сигналов ниже допустимой скорости передачи, переключатель выберет сигнал, имеющий лучшее предполагаемое субъективное качество, т.е. имеющий меньшие искажения квантования/кодирования или лучшее соотношение сигнал/шум.

Схема декодирования в соответствии с вариантом использования изобретения, как отмечалось выше, показана на фиг.4. Для каждого из трех возможных видов выходного сигнала существует особая стадия декодирования/повторного квантования 431, 531 или 533. Модуль 431 имеет на выходе частотный спектр, который преобразуется в спектр временной области с помощью конвертера частоты/времени 440, модуль 531 имеет на выходе сигнал области LPC, а модуль 533 выводит спектр LPC. Для того чтобы убедиться, что входные сигналы в переключателе 532 находятся в области LPC, предусмотрен конвертер LPC-spectrum/LPC 534. Выходные данные переключателя 532 преобразуются обратно во временную область с помощью стадии синтеза LPC 540, которая контролируется через LPC информацию, которая генерируется и передается на стороне кодера. Тогда, после блока 540, обе ветви имеют информацию временной области, которая переключается в соответствии с сигналом управления переключателя, чтобы в итоге получить аудиосигнала, такой как моносигнал, стереосигнал или многоканальный сигнал, что зависит от входного сигнала в схеме кодирования на фиг.3.

Фиг.5 и 6 показывают дальнейшие возможные способы использования изобретения для кодера/декодера, в которых стадии BWE в рамках модулей BWE 130, 230 представляют общий блок обработки.

Фиг.5 иллюстрирует схему кодирования, в которой общая схема предварительной обработки, подключенная к входу переключателя 232, может содержать блок сигнала surround/joint stereo 101, который генерирует на выходе параметры совмещенного стереосигнала Joint Stereo и выходной моносигнал, который генерируется в результате микширования с понижением входного сигнала, имеющего два или более каналов. Как правило, сигналом на выходе блока 101 может быть сигнал, имеющий больше каналов, но в результате применения микширования блоком 101 количество каналов на выходе блока 101 будет меньше, чем число входных каналов блока 101.

Общая схема предварительной обработки может включать в дополнение к блоку 101 стадию расширения ширины спектра 230. На фиг.5 сигнал на выходе блока 101 поступает на вход блока расширения ширины спектра 230, из которого выходит сигнал с ограниченной полосой, например сигнал низкого диапазона или низкий сигнал прохождения. Предпочтительно, чтобы этот сигнал был подвергнут процессу квантования (например, с коэффициентом два). Кроме того, для верхнего диапазона входного сигнала в блоке 230 параметры расширения ширины спектра 106, такие как параметры спектрального конверта, параметры обратной фильтрация, параметры собственного шума и т.д., как известно из профиля НЕ-ААС из MPEG-4, формируются и направляются к мультиплексору потока данных 800.

Предпочтительно, чтобы модуль управления 220 получал входной сигнал в блоке 101 или входной сигнал в блоке 230 для того, чтобы выбрать между, например, режимом музыки или режимом речи. В режиме прослушивания музыки выбирается верхняя ветвь кодирования 210b (второй кодер на фиг.2), а в режиме речи выбирается нижняя ветвь кодирования 210а. Предпочтительно, чтобы модуль управления дополнительно контролировал совместный стереоблок 101 и/или блок расширения ширины спектра 230 для того, чтобы корректировать функциональность этих блоков на определенный сигнал. Таким образом, когда на этапе выбора 220 определяется, что определенная временная часть входного сигнала соответствует первому режиму, т.е. режиму воспроизведения музыки, тогда специальными свойствами блока 101 и/или блока 230 можно управлять с помощью этапа выбора 220. Кроме того, когда на этапе выбора 220 определяется, что сигнал соответствует режиму речи или, вообще, второму режиму области LPC, тогда специальными свойствами блоков 101 и 230 можно управлять в соответствии с выходом этапа выбора. Модуль управления 220 дает также информацию управления 108 и/или частоту переключения FX, которые могут также быть переданы в BWE блок 230 и, кроме того, в мультиплексор потока данных 800 так, что он будет передан на стороны декодера.

Предпочтительно, чтобы спектральное преобразование ветви кодирования 210b осуществлялось с помощью MDCT операции, которая, еще более предпочтительно, является операцией с изменением шкалы времени MDCT, причем силу или, вообще, силу деформации/коробления/изменения шкалы времени можно контролировать в значении между нулем и высокой силой деформации/коробления/изменения шкалы времени. При нулевой силе деформации, операция MDCT в блоке 411 является прямолинейной/обычной/ широко известной операцией MDCT, известной в данной области науки. Сила изменения шкалы времени вместе с дополнительной информацией о изменении шкалы времени может быть передана/введена в мультиплексор потока данных 800 в качестве дополнительной информации.

В ветви кодирования LPC, кодер области LPC может включать в себя основу ACELP 526 для расчета шага усиления, шага отставания и/или справочника кодов информации, такой как индекс справочника кодов и шаг. Режим ТСХ, как известно из 3GPP TS 26,290, включает в себя обработку взвешенного для восприятия сигнала в области преобразования. Преобразованный при помощи преобразования Фурье взвешенный сигнал квантуется с использованием разделенной/расколотой/расщепленной мультискоростной решетки квантования (алгебраически VQ) с квантованием собственного шума. Преобразование рассчитывается в 1024, 512 или 256 дискретном интервале/окне. Сигнал возбуждения выделяется путем обратной фильтрации квантованного взвешенного сигнала через обратный фильтр взвешивания. Режим ТСХ также может быть использован в измененном виде, в котором MDCT используется с увеличенным перекрытием, скалярным квантованием и арифметическим кодером для кодирования спектральных линий.

В режиме "музыка" ветви кодирования 210b, спектральный преобразователь предпочтительно включает специально скорректированную MDCT операцию, имеющую определенные вырезающие функции, за которой следует стадия квантования/энтропии кодирования, которая может состоять из одной стадии квантования вектора, но предпочтительно комбинированный скалярный кодер квантования/энтропии, сходный с квантователем/кодером в частотной области ветви кодирования, т.е. в пункте 421 из фиг.5.

В режиме "речь" ветви кодирования 210а находится блок LPC 510, за которым следует переключатель 521, за которым снова следуют блок ACELP 526 или блок ТСХ 527. ACELP описан в 3GPP TS 26,190 и ТСХ описан в 3GPP TS 26,290. Обычно блок ACELP 526 получает сигнал возбуждения LPC, как рассчитано в процедуре, описанной на фиг.7. Блок ТСХ 527 получает взвешенный сигнал, сгенерированный на фиг.8.

На стороне декодера, проиллюстрированной на фиг.6, после обратной спектральной трансформации/преобразования в блоке 537, применяется инверсия взвешенного фильтра, т.е. (1-µz-1)/(1-A(z/γ)). Затем сигнал фильтруется через (1-A(z)), чтобы перейти к области возбуждения LPC. Таким образом, преобразование в области блока LPC 534 и блока ТСХ -1 537 включает обратное преобразование, а затем фильтрацию через

для того чтобы преобразовать/конвертировать из взвешенной области в область возбуждения.

Хотя позиция 510 на фиг.3, 5 иллюстрирует единичный блок, блок 510 может выводить различные сигналы, если эти сигналы в области LPC. Фактический режим блока 510, такой как режим сигнала возбуждения или режим взвешенного сигнала, может зависеть от фактического состояния переключателя. Кроме того, блок 510 может иметь два параллельных устройства обработки, где одно устройство применяется аналогично фиг.7 и другое устройство применяется как на фиг.8. Следовательно, область LPC на выходе из 510 может представлять либо сигнал возбуждения LPC, или взвешенный сигнал LPC, или любой другой сигнал области LPC.

Во второй ветви кодирования (ACELP/ТСХ) на фиг.5, в сигнал предпочтительно вводятся предыскажения через фильтр 1-µz-1 перед кодированием. В ACELP/ТСХ декодере на фиг.6 в синтезированном сигнале компенсируются предыскажения через фильтр 1/(1-µz-1). В предпочтительном варианте, параметр µ имеет значение 0,68. Предыскажение может быть частью блока LPC 510, где в сигнал вводятся предыскажения до LPC анализа и квантование. Аналогичным образом, компенсация предыскажения может быть частью блока LPC синтеза LPC-1 540.

Фиг.6 иллюстрирует схему декодирования, соответствующую схеме кодирования на фиг.5. Битовый поток, порожденный битовым мультиплексором 800 (или выходной интерфейс) на фиг.5, вводится в битовый демультиплексор 900 (или интерфейс входного сигнала). В зависимости от информации, полученной, например, из битового потока с помощью режима блока детектирования 601 (например, часть контроллера 140 на фиг.1), переключатель на стороне декодера 132 управляется каждым последующим сигналом от верхней ветви или сигналами от нижней ветви блока расширения ширины спектра 701. Блок расширения ширины спектра 701 получает от битового демультиплексора 900 дополнительную информацию. Основываясь на этой дополнительной информации и выходе из режима детектирования 601, блок 701 реконструирует/восстанавливает высший диапазон частот на выходе низкой полосы частот в переключателе 132. Управляющий сигнал 108 контролирует используемую частоту переключения FX.

Сигнал полного диапазона, порожденный в блоке 701, вводится в стадию совместной стерео/объемной обработки 702, которая реконструирует два стереоканала или несколько мультиканалов. Обычно блок 702 будет выводить больше каналов, чем были введены в этот блок. В зависимости от приложения ввод в блок 702 может даже включать два канала, например в стереорежиме, и может включать больше каналов, если выход из этого блока имеет больше каналов, чем вход в этот блок.

Было показано, что переключатель 232 на фиг.5 осуществляет переключение между двумя ветвями, так что только одна ветвь получает сигнал для обработки, а другая ветвь не получает сигнал для обработки. В другом варианте использования, однако, переключатель 232 может быть расположен после, например, аудиокодера 421 и кодера возбуждения 522, 523, 524, что означает, что обе ветви 210а, 210b обрабатывают один и тот же сигнал параллельно. Однако, для того чтобы не удваивать битовый поток, для записи в выходной поток битов выбирается только выходной сигнал одной из этих ветвей кодирования 210а или 210b. Модуль управления будет работать так, чтобы сигнал, записанный в поток битов, минимизировал определенные функции стоимости, где функция стоимости может быть порожденной битрейтом или порожденной искажением восприятия или комбинированной функцией потока/искажения. Таким образом, либо в этом режиме, либо в режиме, показанном на чертежах, модуль управления может также работать в режиме закрытой петли для того, чтобы гарантировать, что в конце только выход ветви кодирования записывается в поток битов, который имеет для данного искажения восприятия самый низкий поток битов, или, для данного потока битов, имеет самое низкое искажение восприятия. В режиме закрытой петли, вход обратной связи может быть получен из выходов трех блоков квантователь/вычислитель (преобразователь масштаба) 421, 522 и 424 на фиг.3.

Кроме того, в варианте использования на фиг.6, переключатель 132 может в альтернативных вариантах использования быть расположен после BWE модуля 701 так, что расширение ширины спектра выполняется параллельно для обеих ветвей и переключатель выбирает один из двух расширенных сигналов.

В способе использования с двумя переключателями, т.е. первым переключателем 232 и вторым переключателем 521, предпочтительно, чтобы временное разрешение для первого переключателя было ниже, чем временное разрешение для второго переключателя. Иными словами, блоки входного сигнала в первый переключатель, который может быть переключен с помощью операции переключения, больше, чем блоки, переключаемые вторым переключателем 521, действующим в области LPC. Обычно переключатель частоты области/области LPC 232 может переключать блоки длиной в 1024 отсчета, а второй переключатель 521 может переключать блоки, имеющие 256 отсчетов каждый.

Фиг.7 иллюстрирует более подробно осуществление блока анализа LPC 510. Звуковой сигнал входит в фильтр блока определения 83, который определяет информацию фильтра A(z). Эта информация выводится в виде краткосрочной информации прогнозирования, необходимой для декодера. Информация краткосрочного прогнозирования требуется для фактического фильтра прогнозирования 85. В вычитатель 86 вводится текущая выборка/отсчет/отрезок звукового сигнала и прогнозируемое значение для текущей выборки вычитается так, что для этой выборки в строке 84 создается сигнал ошибки прогнозирования.

В то время как фиг.7 иллюстрирует предпочтительный способ расчета сигнала возбуждения, фиг.8 иллюстрирует предпочтительный способ расчета взвешенного сигнала. В отличие от фиг.7 фильтр 85 меняется, когда γ отличается от 1. Значение меньше 1 является предпочтительным для γ. Кроме того, там присутствует блок 87, и γ предпочтительно меньшее 1. Как правило, элементы на фиг.7 и 8 могут быть реализованы как в 3GPP TS 26.190 или 3GPP TS 26.290.

Далее описан кодер анализ-синтеза CELP для того, чтобы проиллюстрировать модификации, примененные к этому алгоритму. Этот кодер CELP подробно обсуждается в "Кодирование речи: Учебный обзор", Андреас Спаниас, Труды IEEE, Vol.82, №10, октябрь 1994 г., стр.1541-1582. “Speech Coding: A Tutorial Review”, Andreas Spanias, Proceedings of the IEEE, Vol.82, No. 10, October 1994.

Для особых случаев, когда блок данных/цикл сигнала представляет собой смесь/сочетание непроизнесенной/глухой речи и вокализированной/произнесенной речи или когда речь накладывается на музыку, ТСХ кодирование может быть более подходящим для кодирования возбуждения в области LPC. ТСХ кодирование обрабатывает возбуждение непосредственно в частотной области, не делая каких-либо предположений о источнике/производителе возбуждения. ТСХ является более универсальным/общим, чем CELP кодирование, и не ограничивается вокализированной или невокализированной моделью источника возбуждения. ТСХ является кодированием с использованием входного фильтра, которое использует фильтр линейного прогнозирования для моделирования формантов речеподобных сигналов.

В кодировании, сходном с AMR-WB+, выбор между различными режимами ТСХ и ACELP происходит так же, как известно из описания AMR-WB+. ТСХ режимы отличаются тем, что длина быстрого преобразования Фурье различна для разных режимов и наилучший режим может быть выбран благодаря подходу анализа-синтеза или прямому "упреждающему" режиму.

Как уже говорилось в связи с фиг.5 и 6, общая стадия предварительной обработки 100 предпочтительно включает совместное многоканальное (объемное/совместное стереоустройство) 101 и, дополнительно, стадию расширения ширины спектра 230. Соответственно, декодер включает в себя стадию расширения ширины спектра 701 и связанную с ней совместную многоканальную стадию 702. Предпочтительно, совместная многоканальная стадия 101 по отношению к кодеру связана до стадии расширения ширины спектра 230, а по отношению к стороне декодера стадия расширения ширины спектра 701 связана до совместной многоканальной стадии 702 с соответствующим направлением обработки сигнала. Кроме того, однако, общая стадия предварительной обработки может включать в себя совместную многоканальную стадию без последующей стадии расширения ширины спектра или стадию расширения ширины спектра без последующей совместной многоканальной стадии.

Фиг.9а и 9b показывают упрощенный вид кодера из фиг.5, где кодер включает в себя блок/узел/единицу переключателя выбора 220 и блок/узел/единицу стереокодирования 101. Кроме того, кодер также включает в себя инструменты расширения ширины спектра 230, как, например, калькулятор данных огибающего сигнала и SBR-связанных модулей. Блок/узел/единица переключателя выбора 220 обеспечивает выбор переключения сигнала 108', который переключает между аудиокодером 210b и речевым кодером 210а. Речевой кодер 210а может быть далее разделен на вокализированный и невокализированный. Каждый из этих кодеров может кодировать аудиосигнал в основной полосе частот с использованием различного числа выборочных значений (например, 1024 для более высокого разрешения или 256 для более низкого разрешения). Выбор переключения сигнала 108' также подается в инструмент расширения ширины спектра (ВWE) 230. Инструмент BWE 230 далее использует выбор переключателя 108' для того, чтобы, например, регулировать/корректировать число спектральных конвертов/огибающих 104 и включать/выключать дополнительный переходный детектор и настраивать частоту переключения FX. Звуковой сигнал 105 вводится в блок/узел/единицу выбора переключателя 220 и вводится в стереокодирование 101 так, что стереокодирование 101 может произвести выборочные значения, которые вводятся в блок расширения ширины спектра 230. В зависимости от выбора 108', полученного из блока выбора переключателя 220, инструмент расширения ширины спектра 230 будет генерировать данные репликации спектральной полосы, которые, в свою очередь, направляются или в аудиокодер 210b, или в речевой 210а.

Сигнал выбора переключателя 108' зависит от сигнала и может быть получен из блока выбора переключателя 220 путем анализа звукового сигнала, например, с помощью переходного детектора или других детекторов, которые могут включать или не включать изменяемый/переменный порог. Кроме того, сигнал выбора переключателя 108' может быть скорректирован вручную (например, пользователем) или получен из потока данных (входящих в звуковой сигнал).

Выход аудиокодера 210b и речевого кодера 210а снова может быть введен в битовый поток форматера 800 (см. фиг.5).

Фиг.9b показывает пример сигнала выбора переключателя 108', который обнаруживает звуковой сигнал во временном отрезке до первого времени ta и после второго времени tb. Между первым временем ta и вторым временем tb блок выбора переключателя 220 обнаруживает речевой сигнал, что дает различные дискретные значения для сигнала выбора переключателя 108'.

Решение об использовании более высокой частоты переключения FX контролируется блоком выбора переключения 220. Это означает, что описанный метод также можно использовать в рамках системы, в которой модуль SBR сочетается только с одним основным кодером и переменной частотой переключения FX.

Хотя некоторые из чертежей от фиг.1 до фиг.9 составлены как блок-схемы аппарата, эти чертежи являются одновременно иллюстрацией метода, где функциональные средства блока соответствуют шагам метода.

Фиг.10 иллюстрирует представление кодированного аудиосигнала 102, включающего первую часть 104а, вторую часть 104b, третью часть 104с и четвертую часть 104d. В этом представлении кодированный аудиосигнал 102 является битовым потоком, переданным по каналу передачи, который содержит информацию о режиме кодирования 108. Каждая часть 104 кодированного аудиосигнала 102 может представлять различные временные части, хотя различные части 104 могут быть в частотной, а также временной области, так что кодированный аудиосигнал 102 не будет представлять временную шкалу.

В этом варианте использования кодированный аудиосигнал 102 включает в себя, помимо информации о первом режиме кодирования 108а, указывающей на используемый алгоритм кодирования для первой части 104а, информацию о втором режиме кодирования 108b, указывающую на используемый алгоритм кодирования для второй части 104b; информацию о третьем режиме кодирования 108d, указывающую на используемый алгоритм кодирования для четвертой части 104d. Информация о первом режиме кодирования 108а может также указывать используемую первую частоту переключения FX1 в течение первой части 104а, и информация о втором режиме кодирования 108b может также указывать на используемую вторую частоту переключения FX2 в течение второй части 104b. Например, в течение первой части 104а может использоваться режим "речевого" кодирования, а в течение второй части 104b может использоваться режим "музыкального" кодирования, так что первая частота переключения FX1 может быть выше, чем вторая частота переключения FX2.

В этом примере использования изобретения кодированный аудиосигнал 102 не включает в себя информацию о режиме кодирования для третьей части 104с, что указывает на то, что нет никаких изменений в используемом кодере и/или частоте переключения FX между первой и третьей частями 104а, с. Таким образом, информация о режиме кодирования 108 может отображаться как заголовок только для тех частей 104, которые используют различный основной кодер и/или частоту переключения по сравнению с предыдущей частью. В других вариантах использования вместо сигнализации значений частот переключения для различных частей 104, информация о режиме кодирования 108 может включать один бит с указанием основного кодера (первого или второго кодера 210а, b), используемого для соответствующей части 104.

Таким образом, сигнализация поведения переключателя между различными SBR-инструментами может быть сделана путем представления, например, определенного бита в битовом потоке так, что этот указанный бит может включить или выключить определенное поведение декодера. Кроме того, в системах с двумя основными кодерами, согласно способу использования, сигнализация переключателя может быть начата/инициирована на основе анализа основного кодека. В этом случае, представление адаптации SBR инструментов делается неявно, это означает, что оно определяется соответствующей деятельностью основного кодера.

Более подробно о стандартном описании элементов битового потока для полезной нагрузки SBR можно узнать из ISO/IEC 14496-3, подпункта 4.5.2.8. Модификация этого стандартного битового потока включает расширение индекса для главной таблицы частот (для выявления используемой частоты переключения). Используемый индекс кодируется, например, с четырьмя битами, позволяя кроссоверной/пересекающейся полосе быть переменной в диапазоне от 0 до 15 полос.

Способы использования настоящего изобретения можно, следовательно, резюмировать следующим образом. Различные сигналы с различными временными/частотными характеристиками предъявляют различные требования к характеристикам расширения ширины спектра. Переходные сигналы (например, в рамках речевого сигнала) требуют высокое временное разрешение BWE и частота переключения FX (верхняя граница частоты основного кодера) должна быть как можно выше (например, 4 кГц или 5 кГц и 6 кГц). Особенно в вокализированной речи искаженная временная структура может ухудшить качество восприятия. Тональным сигналам необходимо стабильное воспроизведение спектральных компонентов и соответствующая гармоничная структура/схема/растр воспроизведенных высокочастотных частей. Стабильное воспроизведение тональных частей ограничивает ширину спектра основного кодера, но не нуждается в BWE с высоким временным и более высоким спектральным разрешением. В коммутируемом устройстве/модели речь-/звук основного кодера возможно использовать выбор основного кодера, для того чтобы адаптировать и временные, и спектральные характеристики BWE, а также адаптировать начальную частоту (частоту переключения) к характеристикам сигнала. Таким образом, способы использования определяют расширение ширины спектра, где выбор основного кодера выступает в качестве критерия адаптации к расширению характеристик спектра.

Сигнализация измененной начальной (кроссоверной) частоты BWE может осуществляться явно путем отправки дополнительной информации (как, например, информации о режиме кодирования 108) в битовом потоке, или неявно, путем получения частоты переключения FX прямо из основного используемого кодера (в случае, если основной кодер, например, сигнализирован в битовом в потоке). Например, более низкая частота BWE FX для преобразовательного/трансформирующего кодера (например, аудио/музыка кодера) и более высокая для кодера временной области (речи). В этом случае, частота переключения может быть в диапазоне от 0 Гц до частоты Найквиста.

Хотя некоторые аспекты уже были описаны в контексте аппарата, ясно, что эти аспекты также представляют собой описание соответствующего метода, где блок или устройство соответствует шагам метода или свойству шага метода. Аналогично, аспекты, описанные в контексте шага метода, также представляют собой описание соответствующего блока или элемента или функцию соответствующего аппарата.

Изобретенный кодированный аудиосигнал может быть сохранен на цифровых носителях или может быть передан по каналу передачи, такому как беспроводной канал передачи или проводной канал передачи, такой как Интернет.

В зависимости от определенных требований к использованию изобретения, изобретение может быть реализовано в оборудовании/аппаратных средствах или в программном обеспечении. Реализация изобретения может быть выполнена с использованием цифровых носителей, например дискет, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющих сохраненные электронно читаемые управляющие сигналы, которые взаимодействуют (или способны работать вместе) с программируемой компьютерной системой так, что выполняется соответствующий метод.

Некоторые варианты использования изобретения включают использование носителя данных с электронно читаемыми сигналами управления, которые способны взаимодействовать с программируемой компьютерной системой, например такой, где выполняется один из ранее описанных методов.

Как правило, способы использования изобретения могут быть реализованы в виде программного продукта с программным кодом, при этом программный код выполняет один из методов, когда программный продукт запущен на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другой способ использования изобретения включает компьютерную программу для выполнения одного из методов, описанных здесь, которая хранится на машиночитаемом носителе.

Иными словами, воплощением данного изобретения, таким образом, является компьютерная программа, имеющая программный код для выполнения одного из методов, описанных здесь, когда компьютерная программа запущена на компьютере.

Еще одним способом воплощения изобретенных методов, следовательно, является носитель информации (или цифровой носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из методов, описанных в данном документе.

Еще одним способом воплощения изобретенных методов, следовательно, является поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из методов, описанных в данном документе. Поток данных или последовательность сигналов может быть, например, настроен на передачу через канал передачи данных, например через Интернет.

Еще один способ воплощения изобретения включает в себя средства обработки, например компьютер или программируемое логическое устройство, настроенное на или адаптированное для выполнения одного из методов, описанных в данном документе.

Еще один способ воплощения изобретения включает компьютер с установленной компьютерной программой для выполнения одного из методов, описанных в данном документе.

В некоторых способах воплощения изобретения, программируемое логическое устройство (например, вентильная матрица с эксплуатационным программированием, вентильная матрица, программируемая пользователем) может быть использовано для выполнения некоторых или всех функциональных методов, описанных в данном документе. В некоторых способах, вентильная матрица с эксплуатационным программированием, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для выполнения одного из методов, описанных в данном документе. В целом, методы предпочтительно осуществлять/ реализовывать с помощью устройства аппаратного обеспечения/ аппаратных средств.

Описанные выше способы являются иллюстративным материалом принципов данного изобретения. Предполагается, что модификации и вариации устройства и деталей, описанных в данном документе, будут очевидны для других специалистов в данной области. Этот документ преднамеренно ограничивается только рамками предстоящих патентных притязаний, а не конкретными деталями, представленными здесь в виде описания и объяснения способов использования изобретения.

1. Устройство для декодирования (100) кодированного аудиосигнала (102), кодированный аудиосигнал (102), содержащий первую временную часть (104а), кодированную в соответствии с первым алгоритмом кодирования, вторую временную часть (104b), кодированную в соответствии со вторым алгоритмом кодирования, параметры расширения ширины спектра BWE (106) для первой временной части (104а) кодированного сигнала (102) и второй временной части (104b) кодированного сигнала (102) и информацию о режиме кодирования (108), указывающую на первый алгоритм декодирования или второй алгоритм декодирования, включающее
речевой декодер (110а), предназначенный для декодирования первой временной части (104а) кодированного сигнала (102) в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала (102) для получения первого декодированного сигнала (114а), при этом речевой декодер (110а) включает декодер LPC;
аудиодекодер (110b), предназначенный для декодирования второй временной части (104b) кодированного сигнала (102) в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала (102) для получения второго декодированного сигнала (114b), при этом аудиодекодер (110b) включает кодер на основе преобразований;
модуль расширения ширины спектра (BWE модуль) (130) с управляемой частотой переключения (FX), при этом модуль BWE (130) сконфигурирован для выполнения алгоритма расширения ширины спектра с помощью первого декодированного сигнала (114а) и BWE параметров (106) для первой временной части (104а) кодированного сигнала (102), а также для выполнения алгоритма расширения ширины спектра с помощью второго декодированного сигнала (114b) и параметра расширения ширины спектра (106) для второй временной части (104b) кодированного сигнала (102),
модуль BWE (130) применяет первую частоту переключения (FX1) для расширения ширины спектра первого декодированного сигнала (114а) и вторую частоту переключения (FX2) для расширения ширины спектра второго декодированного сигнала (114b); при этом первая частота переключения (FX1) выше, чем вторая частота переключения (FX2);
контроллер (140) для контроля за частотой переключения (FX) для BWE модуля (130) в соответствии с информацией о режиме кодирования (108).

2. Устройство для декодирования (100) по п.1, характеризующееся тем, что оно дополнительно содержит входной интерфейс (900) для ввода кодированного аудиосигнала (102), представленного в виде битового потока.

3. Устройство для декодирования (100) по п.1 или 2, характеризующееся тем, что BWE модуль (130) включает в себя переключатель (132), настроенный для переключения между первой и второй временной частью из речевого декодера (110а) в аудиодекодер (110b), так что алгоритм расширения ширины спектра применяется либо к первому декодированному сигналу (114а), либо ко второму декодированному сигналу (114b).

4. Устройство для декодирования (100) по п.3, характеризующееся тем, что контроллер (140) настроен на управление переключателем (132) в зависимости от указанного алгоритма декодирования в информации о режиме кодирования (108).

5. Устройство для декодирования (100) по п.1, характеризующееся тем, что контроллер (140) предназначен для того, чтобы увеличивать частоту переключения (FX) в рамках первой временной части или уменьшать частоту переключения (FX) в рамках второй временной части.

6. Устройство для кодирования (200) аудиосигнала (105), включающее
первый кодер (210а), предназначенный для кодирования в соответствии с первым алгоритмом кодирования, при этом первый алгоритм кодирования имеет первую частоту ширины спектра, а первый кодер (210а) включает LPC кодер;
второй кодер (210b), предназначенный для кодирования в соответствии со вторым алгоритмом кодирования, при этом второй алгоритм кодирования имеет вторую частоту ширины спектра, меньшую, чем первая частота ширины спектра, а второй кодер (210b) включает кодер на основе преобразований;
блок управления (220) для указания первого алгоритма кодирования для первой части (204а) аудиосигнала (105) и для указания второго алгоритма кодирования для второй части (204b) аудиосигнала (105), при этом вторая часть (204b) отличается от первой части (204а); а также
модуль расширения ширины спектра (230) для вычисления параметров BWE (106) для аудиосигнала (105), в котором BWE модуль (230) выполнен с возможностью контроля блоком управления (220) для вычисления параметров BWE (106) для диапазона, не включающего первую частоту ширины спектра в первой части (204а) аудиосигнала (105), и для диапазона, не включающего вторую частоту ширины спектра во второй части (204b) аудиосигнала (105),
первая или вторая частота ширины спектра определены с помощью изменяемой частоты переключения (FX), при этом изменяемая частота переключения (FX) формируется на выходе блока управления (220),
BWE модуль (230) сконфигурирован с возможностью применения первой частоты переключения (FX1) для вычисления BWE параметров сигнала, кодированного при помощи первого кодера (210а), и второй частоты переключения (FX2) для сигнала, кодированного при помощи второго кодера (210b), при этом первая частота переключения (FX1) выше, чем вторая частота переключения (FX2).

7. Устройство для кодирования (200) по п.6, характеризующееся тем, что оно содержит выходной интерфейс (800) для вывода кодированного аудиосигнала (102), при этом кодированный аудиосигнал (102) содержит первую временную часть (104а), кодированную в соответствии с первым алгоритмом кодирования, вторую временную часть (104b), кодированную в соответствии со вторым алгоритмом кодирования, BWE параметры (106) для первой временной части (104а) и для второй временной части (104b), а также информацию о режиме кодирования (108), указывающую на первый алгоритм декодирования или на второй алгоритм декодирования.

8. Устройство для кодирования (200) по п.6, характеризующееся тем, что первая или вторая частота ширины спектра определяется переменной частотой переключения (FX), при этом блок управления (220) выполнен с возможностью формирования переменой частоты переключения (FX).

9. Устройство для кодирования (200) по п.6, характеризующееся тем, что BWE модуль (230) включает в себя переключатель (232), контролируемый блоком управления (220), при этом переключатель (232) предназначен для переключения между первым и вторым временным кодером (210а, 210b) таким образом, что аудиосигнал (105) для различных временных частей кодируется первым или вторым кодером (210а, 210b).

10. Устройство для кодирования (200) по п.6, характеризующееся тем, что блок управления (220) применен для анализа аудиосигнала (105), или первого выходного сигнала первого кодера (210а), или второго выходного сигнала второго кодера (210b), или сигнала, полученного путем декодирования выходного сигнала первого кодера (210а) или второго кодера (210b) в зависимости от целевой функции.

11. Способ декодирования кодированного аудиосигнала (102), при этом кодированный аудиосигнал (102) содержит первую временную часть (104а), кодированную в соответствии с первым алгоритмом кодирования, вторую временную часть (104b), кодированную в соответствии со вторым алгоритмом кодирования, BWE параметры (106) для первой временной части (104а) кодированного сигнала (102) и для второй временной части (104b) кодированного сигнала (102), а также информацию о режиме кодирования (108), указывающую на первый алгоритм декодирования или второй алгоритм декодирования, включающий декодирование первой временной части (104а) кодированного сигнала (102) в соответствии с первым алгоритмом декодирования для первой временной части кодированного сигнала (102) для получения первого декодированного сигнала (114а), при этом на этапе декодирования первой временной части используют LPC кодер;
декодирование второй временной части (104b) кодированного сигнала (102) в соответствии со вторым алгоритмом декодирования для второй временной части кодированного сигнала (102) для получения второго декодированного сигнала (114b), при этом на этапе декодирования второй временной части (104b) используют кодер на основе преобразований;
выполнение алгоритма расширения ширины диапазона BWE модулем (130) при помощи контролируемой частоты переключения (FX) с применением первого декодированного сигнала (114а) и BWE параметров (106) для первой временной части (104а) кодированного сигнала (102) и выполнение алгоритма расширения ширины спектра BWE модулем (130) при помощи контролируемой частоты переключения (FX) с применением второго декодированного сигнала (114b) и параметра расширения ширины диапазона (106) для второй временной части (104b) кодированного сигнала (102),
первую частоту переключения (FX1) применяют для расширения ширины спектра первого декодированного сигнала (114а) и вторую частоту переключения (FX2) применяют для расширения ширины спектра второго декодированного сигнала (114b), при этом первая частота переключения (FX1) выше, чем вторая частота переключения (FX2);
управление частотой переключения (FX) для BWE модуля (130) в соответствии с информацией о режиме кодирования (108).

12. Способ кодирования аудиосигнала (105), включающий:
кодирование в соответствии с первым алгоритмом кодирования, при этом первый алгоритм кодирования имеет первую частоту ширины спектра, при этом этап кодирования в соответствии с первым алгоритмом кодирования включает LPC кодер;
кодирование в соответствии со вторым алгоритмом кодирования, при этом второй алгоритм кодирования имеет вторую частоту ширины спектра, меньшую, чем первая частота ширины спектра; этап кодирования в соответствии со вторым алгоритмом кодирования включает кодер на основе преобразований;
указание на первый алгоритм кодирования для первой части (204а) аудиосигнала (105) и второй алгоритм кодирования для второй части (204b) аудиосигнала (105), при этом вторая часть (204b) отличается от первой части (204а), а также
вычисление параметров BWE (106) для аудиосигнала (105), так что BWE параметры (106) рассчитывают для диапазона, не включающего первую частоту ширины спектра в первой части (204а) аудиосигнала (105), и для диапазона, не включающего вторую частоту ширины спектра для второй части (204b) аудиосигнала (105),
первую или вторую частоту ширины спектра определяют при помощи изменяемой частоты переключения (FX),
BWE модуль (230) применяет первую частоту переключения (FX1) для вычисления BWE параметров для сигнала, кодированного при помощи LPC кодера, и вторую частоту переключения (FX2) для сигнала, кодированного при помощи кодера на основе преобразований (210b), при этом первая частота переключения (FX1) выше, чем вторая частота переключения (FX2).

13. Носитель информации с сохраненной на нем компьютерной программой, которая приводится в действие, когда устанавливается на компьютере, для реализации способа по п.11.

14. Носитель информации с сохраненной на нем компьютерной программой, которая приводится в действие, когда устанавливается на компьютере, для реализации способа по п.12.



 

Похожие патенты:

Изобретение относится к области звукового кодирования и, в частности, к низкоскоростным схемам кодирования аудио сигнала. .

Изобретение относится к области цифровой обработки звукового сигнала. .

Изобретение относится к устройству и способу кодирования и воспроизведения звука, в частности, не ограничиваясь указанным, к устройству для кодированных речевых сигналов и аудио-сигналов.

Изобретение относится к кодированию и декодированию аудиоданных и, в частности, к маскированию ошибок в кодированных аудиоданных. .

Изобретение относится к аудиокодерам, использующим повышающее микширование аудиосигналов. .

Изобретение относится к системам многоточечной связи и, в частности, к модулю многоточечного соединения. .

Изобретение относится к передаче данных по речевому каналу, в частности к передаче неречевой информации посредством речевого кодека (внутри полосы пропускания) в сети связи.

Изобретение относится к устройствам кодирования, декодирования и способу для их работы, используемым в системе связи для кодирования и передачи сигналов

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала на базе доступного многоканального понижающего микширования и вспомогательных управляющих данных

Изобретение относится к области кодирования аудио сигналов, а именно к области кодирования аудио сигналов с низким битрейтом

Изобретение относится к вычислительной технике

Изобретение относится к вычислительной технике

Изобретение относится к области телекоммуникационных систем

Изобретение относится к вычислительной технике

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации. Анализатор сигнала конфигурируют для получения информации энергии компонента и информации направления на основе двухканального сигнала микрофона таким образом, что информация энергии компонента описывает оценки энергий компонента прямого звука двухканального сигнала микрофона и компонента рассеянного звука двухканального сигнала микрофона, и таким образом, что информация направления описывает оценку направления, из которого приходит компонент прямого звука двухканального сигнала микрофона. Генератор дополнительной пространственной информации конфигурируют для сопоставления информации энергии компонента и информации направления с информацией пространственных указателей, которая описывает набор пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов. Технический результат - создание эффективной в вычислительном отношении концепции для получения информации пространственных указателей, сохраняя усилие на преобразование звука достаточно малым. 5 н. и 8 з.п. ф-лы, 21 ил.
Наверх