Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания

Изобретение относится к области аудиокодирования и аудиодекодирования для обеспечения кодированной и декодированной аудиоинформации соответственно на основании входной аудиоинформации и на основании кодированной аудиоинформации. Технический результат – обеспечение расширения полосы пропускания для улучшения компромисса между скоростью передачи битов и качеством звука. Аудиокодер содержит низкочастотный кодер для получения кодированного представления низкочастотной части и блок обеспечения информации расширения полосы пропускания на основании входной аудиоинформации. Аудиокодер выполнен также для избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию. Аудиодекодер содержит низкочастотный декодер для получения декодированного представления низкочастотной части и расширение полосы пропускания для получения сигнала расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получать сигнал расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. 14 н. и 24 з.п. ф-лы, 8 ил.

 

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Варианты осуществления согласно изобретению относятся к аудиокодеру для обеспечения кодированной аудиоинформации на основании входной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к аудиодекодеру для обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения кодированной аудиоинформации на основании входной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для осуществления одного из упомянутых способов.

Дополнительные варианты осуществления согласно изобретению относятся к кодированному аудиопредставлению, представляющему аудиоинформацию.

Некоторые варианты осуществления согласно изобретению относятся к общему расширению полосы пропускания аудиосигнала со скоростью передачи сигнально-адаптивной вспомогательной информации для кодирования аудио с очень низкой скоростью передачи битов.

УРОВЕНЬ ТЕХНИКИ

В последние годы постоянно растет потребность в кодировании и декодировании аудиоконтента. Хотя доступные скорости передачи битов и емкости устройств хранения данных для передачи и хранения кодированного аудиоконтента существенно возрастают, по-прежнему имеется потребность в эффективном по скорости передачи битов кодировании, передаче, хранении и декодировании аудиоконтента при обоснованном качестве, в частности, речевых сигналов в сценариях связи.

Современные системы кодирования речи допускают кодирование широкополосного (WB) цифрового аудиоконтента, т.е. сигналов с частотами вплоть до 7-8 кГц, на скоростях передачи битов всего в 6 Кбит/с. Наиболее широко обсуждаемые примеры представляют собой рекомендации ITU-T G.722.2 (см., например, ссылочный материал [1]), а также позднее разработанный G.718 (см., например, ссылочные материалы [4] и [10]) и унифицированный речевой и аудио-MPEG-кодек xHE-AAC (см., например, ссылочный материал [8]). Как G.722.2, также известный как AMR-WB, так и G.718 используют технологии расширения полосы пропускания (BWE) в 6,4-7 кГц, чтобы давать возможность лежащему в основе базовому ACELP-кодеру «сосредоточиться» на более релевантных с точки зрения восприятия нижних частотах (в частности, на частотах, на которых слуховая система человека является фазочувствительной) и за счет этого достигать достаточного качества, в частности, на очень низких скоростях передачи битов. В xHE-AAC, улучшенная репликация полос спектра (eSBR) используется для расширения полосы пропускания (BWE). Процесс расширения полосы пропускания может, в общем, разделяться на два концептуальных подхода.

BWE «вслепую» (или «искусственное» BWE), в котором высокочастотные (HF) компоненты восстанавливаются только из декодированного низкочастотного (LF) сигнала базового кодера, т.е. без необходимости передачи вспомогательной информации из кодера. Эта схема используется посредством AMR-WB и G.718 при 16 Кбит/с и ниже, а также посредством некоторых обратно совместимых систем постобработки при расширении полосы пропускания, управляющих традиционной узкополосной телефонной речью (см., например, ссылочные материалы [5] и [9]).

«Направляемое» BWE, которое отличается от расширения полосы пропускания вслепую тем, что некоторые параметры, используемые для восстановления высокочастотного (HF) контента, передаются в декодер в качестве вспомогательной информации вместо оценки из декодированного базового сигнала. AMR-WB, G.718, xHE-AAC, а также некоторые другие кодеки (см., например, ссылочные материалы [2], [7] и [11]) используют этот подход, но не на очень низких скоростях передачи битов.

Тем не менее, обнаружено, что сложно обеспечить надлежащее расширение полосы пропускания на низких скоростях передачи битов, которое обеспечивает достаточно хорошее качество при восстановлении аудиоконтента.

Таким образом, имеется потребность в принципе расширения полосы пропускания, который способствует улучшенному компромиссу между скоростью передачи битов и качеством звука.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Вариант осуществления согласно изобретению создает аудиокодер для обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Аудиокодер содержит низкочастотный кодер, выполненный с возможностью кодировать низкочастотную часть входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Аудиокодер также содержит блок обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации расширения полосы пропускания на основании входной аудиоинформации. Аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом.

Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что для некоторых типов аудиоконтента и даже для некоторых частей смежного фрагмента аудиоконтента, расширение полосы пропускания с хорошим качеством может достигаться на основании кодированного представления низкочастотной части вообще без вспомогательной информации расширения полосы пропускания или только с небольшим объемом вспомогательной информации расширения полосы пропускания (например, с небольшим числом параметров расширения полосы пропускания, которые включены в кодированную аудиоинформацию). Тем не менее, принцип также основан на таких выявленных сведениях, что для других типов аудиоконтента и даже для других частей смежного фрагмента аудиоконтента, может быть необходимым (или по меньшей мере очень желательным) включать вспомогательную информацию расширения полосы пропускания (например, выделенные параметры расширения полосы пропускания) или увеличенный объем вспомогательной информации расширения полосы пропускания (например, по сравнению с вышеуказанным случаем) в кодированную аудиоинформацию, поскольку в противном случае расширение полосы пропускания на стороне декодера не обеспечивает удовлетворительное качество звука.

Посредством избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию (например, посредством избирательного варьирования объема информации расширения полосы пропускания или параметров расширения полосы пропускания, включенных в кодированную аудиоинформацию, либо посредством избирательного переключения между включением информации расширения полосы пропускания в кодированную аудиоинформацию и исключением упомянутого включения информации расширения полосы пропускания в кодированную аудиоинформацию), можно не допускать того, что «факультативная» информация расширения полосы пропускания использует ценную скорость передачи битов для случая, когда расширение полосы пропускания на стороне декодера реально не требует информации расширения полосы пропускания, и, тем не менее, можно обеспечивать то, что информация расширения полосы пропускания (или увеличенный объем информации расширения полосы пропускания) включен в кодированную аудиоинформацию, если информация расширения полосы пропускания фактически требуется для расширения полосы пропускания на стороне декодера, т.е. для восстановления аудиоконтента на стороне декодера.

Таким образом, посредством избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом, т.е. когда информация расширения полосы пропускания фактически необходима для достижения достаточно хорошего качества декодированного представления аудиосигнала, средняя скорость передачи битов может уменьшаться при одновременном поддержании возможности получать высокое качество звука.

Другими словами, аудиокодер, например, может переключаться между обеспечением информации расширения полосы пропускания, которая обеспечивает направляемое параметрами расширение полосы пропускания на стороне аудиодекодера, и исключением обеспечения информации расширения полосы пропускания, которая требует использования расширения полосы пропускания вслепую на стороне аудиодекодера.

Соответственно, очень хороший компромисс между скоростью передачи битов и качеством звука может получаться с использованием вышеописанного принципа.

В предпочтительном варианте осуществления, аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством (например, с точки зрения заданного показателя качества), на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Посредством определения или оценки (например, на основании свойств входной аудиоинформации или на основании частичного или полного восстановления аудиоинформации на стороне аудиокодера) того, какие части входной аудиоинформации не могут декодироваться с достаточным (или желаемым) качеством, на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую, получается значимый критерий для определения, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию, для частей (например, кадров) входной аудиоинформации (или эквивалентно, для кадров или частей кодированной аудиоинформации). Другими словами, вышеуказанный критерий, который оценен посредством детектора, обеспечивает возможность хорошего компромисса между впечатлением от прослушивания, которое может достигаться посредством декодирования кодированной аудиоинформации, и скоростью передачи битов для кодированной аудиоинформации.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что определение в отношении того, могут ли параметры расширения полосы пропускания оцениваться на основании низкочастотной части с достаточной или желаемой точностью, составляет критерий, который может быть оценен при небольших вычислительных затратах, и который, тем не менее, составляет хороший критерий для определения, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации в зависимости от того, являются ли части неподвижными во времени частями, и в зависимости от того, имеют ли части низкочастотный характер. Кроме того, аудиокодер выполнен с возможностью избирательно исключать включение информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора в качестве неподвижных во времени частей, имеющих низкочастотный характер.

Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что обычно не обязательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, которые являются неподвижными во времени и имеют низкочастотный характер, поскольку расширение полосы пропускания вслепую (которое не основывается на информации расширения полосы пропускания или параметрах из потока битов) обычно обеспечивает возможность достаточно хорошего восстановления таких частей сигнала. Соответственно, предусмотрен критерий, который может быть оценен вычислительно эффективным способом, и который, тем не менее, обеспечивает хорошие результаты (с точки зрения компромисса между скоростью передачи битов и качеством звука).

В предпочтительном варианте осуществления детектор выполнен с возможностью идентифицировать части входной аудиоинформации в зависимости от того, содержат ли части вокализованную речь, и/или в зависимости от того, содержат ли части шум окружающей среды (например, автомобилей), и/или в зависимости от того, содержат ли части музыку без ударных инструментов. Обнаружено, что такие части, которые содержат вокализованную речь, либо которые содержат шум окружающей среды, либо которые содержат музыку без ударных инструментов, обычно могут восстанавливаться с использованием расширения полосы пропускания вслепую с достаточным качеством звука, так что рекомендуется включение информации расширения полосы пропускания в кодированную аудиоинформацию для таких частей.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации в зависимости от того, превышает или равна либо нет разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора.

Обнаружено, что части входной аудиоинформации, которые содержат большую разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части, обычно не могут хорошо восстанавливаться с использованием расширения полосы пропускания вслепую, поскольку расширение полосы пропускания вслепую зачастую обеспечивает аналогичные спектральные огибающие в высокочастотной части (т.е. в сигнале расширения полосы пропускания) по сравнению с соответствующей низкочастотной частью. Соответственно, обнаружено, что оценка разности между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части составляет хороший критерий определения того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления детектор выполнен с возможностью идентифицировать части входной аудиоинформации в зависимости от того, содержат ли части невокализованную речь, и/или в зависимости от того, содержат ли части звуки ударных инструментов. Обнаружено, что части, содержащие невокализованную речь, и части, содержащие звуки ударных инструментов, обычно содержат спектры, в которых спектральная огибающая низкочастотной части существенно отличается от спектральной огибающей высокочастотной части. Соответственно, обнаружено, что обнаружение невокализованной речи и/или звуков ударных инструментов представляет собой хороший критерий определения того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью определять спектральный наклон частей входной аудиоинформации и идентифицировать части входной аудиоинформации в зависимости от того, превышает или равен либо нет определенный спектральный наклон фиксированному или переменному пороговому значению наклона. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Обнаружено, что спектральный наклон может извлекаться при небольших вычислительных затратах и при этом обеспечивает хороший критерий определения в отношении того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию. Например, если спектральный наклон достигает или превышает пороговое значение наклона, можно прийти к выводу, что спектр имеет высокочастотный характер и не может быть хорошо восстановлен посредством расширения полосы пропускания вслепую. В частности, расширение полосы пропускания вслепую обычно не может восстанавливать спектры, содержащие положительный наклон (при этом высокочастотная часть подчеркивается относительно низкочастотной части), с хорошей точностью. Кроме того, поскольку высокочастотная часть имеет конкретную перцепционную релевантность в случае положительного спектрального наклона, в таких случаях рекомендуется включать информацию расширения полосы пропускания в кодированное аудиопредставление.

В предпочтительном варианте осуществления детектор дополнительно выполнен с возможностью определять частоту переходов через нуль частей входной аудиоинформации и идентифицировать части входной аудиоинформации также в зависимости от того, превышает или равна либо нет определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль. Обнаружено, что частота переходов через нуль также представляет собой хороший критерий для того, чтобы обнаруживать части входной аудиоинформации, которые не могут быть хорошо восстановлены с использованием расширения полосы пропускания вслепую, так что целесообразно (с точки зрения достижения хорошего компромисса между скоростью передачи битов и качеством звука) включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В предпочтительном варианте осуществления детектор выполнен с возможностью применять гистерезис для идентификации частей сигнала входной аудиоинформации для того, чтобы сокращать число переходов между идентифицированными частями сигнала (для которых информация расширения полосы пропускания включена в кодированное аудиопредставление) и неидентифицированными частями сигнала (для которых информация расширения полосы пропускания не включена в кодированное аудиопредставление). Обнаружено, что преимущественно не допускать избыточного переключения между включением информации расширения полосы пропускания в кодированную аудиоинформацию и исключением включения информации расширения полосы пропускания в кодированное аудиопредставление, поскольку такие переходы могут способствовать некоторым артефактам, в частности, если число переходов является очень большим. Соответственно, с использованием гистерезиса, который, например, может применяться к пороговому значению наклона (которое в таком случае является переменным пороговым значением наклона) или к пороговому значению частоты переходов через нуль (которое в таком случае является переменным пороговым значением частоты переходов через нуль), эта цель может достигаться.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать параметры, представляющие спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания. Этот вариант осуществления основан на такой идее, что параметры, представляющие спектральную огибающую высокочастотной части, являются особенно важными в направляемом параметрами расширении полосы пропускания, так что включение упомянутых параметров, представляющих спектральную огибающую высокочастотной части входной аудиоинформации, позволяет достигать расширения полосы пропускания с хорошим качеством без результирующей высокой скорости передачи битов.

В предпочтительном варианте осуществления низкочастотный кодер выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации, содержащую частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц. Кроме того, аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивности высокочастотных частей или подчастей сигнала (например, частей сигнала, имеющих частоты выше приблизительно 6-7 кГц), имеющих полосы пропускания в 300-500 Гц. Обнаружено, что такой принцип приводит к высокому качеству звука без существенного увеличения затрат в виде скорости передачи битов.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление 3-5 скалярно квантованных параметров, описывающих интенсивности четырех высокочастотных частей (или подчастей) сигнала, причем высокочастотные части (или подчасти) сигнала покрывают частотные диапазоны выше низкочастотной части. Обнаружено, что использование 3-5 скалярно квантованных параметров, описывающих интенсивности четырех высокочастотных частей сигнала, обычно является достаточным для того, чтобы достигать направляемого параметрами расширения полосы пропускания, которое превышает относительно низкое качество звука, получаемое посредством расширения полосы пропускания вслепую на идентичной части сигнала. Соответственно, отсутствуют большие различия в качестве между восстановленными частями аудиосигнала, независимо от того, восстановлены восстановленные части аудиосигнала с использованием расширения полосы пропускания вслепую или направляемого расширения полосы пропускания. Таким образом, вышеуказанный принцип хорошо адаптирован к принципу, который обеспечивает возможность переключения между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление множество параметров, описывающих взаимосвязь между энергиями спектрально смежных частотных частей, при этом один из параметров описывает отношение между энергией первой высокочастотной части и низкочастотной части расширения полосы пропускания, и при этом другие из параметров описывают отношения между энергиями (пар) других высокочастотных частей расширения полосы пропускания. Обнаружено, что такой принцип, описывающий отношения (или разности) между энергиями (или, эквивалентно, интенсивностями) различных (предпочтительно смежных) частотных частей, обеспечивает возможность эффективного кодирования информации расширения полосы пропускания. Также обнаружено, что такие параметры, описывающие взаимосвязь между энергиями спектрально смежных частотных частей, обычно могут квантоваться только с небольшим числом битов без существенного ухудшения качества звука, получаемого посредством расширения полосы пропускания.

Другой вариант осуществления согласно изобретению обеспечивает аудиодекодер для обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации. Аудиодекодер содержит низкочастотный декодер, выполненный с возможностью декодировать кодированное представление низкочастотной части (аудиоконтента) для того, получать декодированное представление низкочастотной части. Аудиодекодер также содержит расширение полосы пропускания, выполненное с возможностью получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получать сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.

Этот аудиокодер основан на такой идее, что хороший компромисс между качеством звука и скоростью передачи битов может получаться, если можно переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания даже в пределах смежного фрагмента аудиоконтента, поскольку обнаружено, что множество характерных фрагментов аудиоконтента содержат как секции, для которых высокое качество звука может получаться с использованием расширения полосы пропускания вслепую, так и секции, для которых требуется направляемое параметрами расширение полосы пропускания с тем, чтобы достигать достаточного качества звука. Кроме того, должно быть очевидным, что идентичные соображения, поясненные выше относительно аудиокодера, также применяются к аудиодекодеру.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе. Обнаружено, что такое сверхточное (покадровое) переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания помогает поддерживать скорость передачи битов обоснованно низкой, даже если регулярно возникают некоторые кадры, в которых направляемое параметрами расширение полосы пропускания требуется для того, чтобы не допускать избыточного ухудшения аудиоконтента.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью переключаться между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента. Этот вариант осуществления основан на таких выявленных сведениях, что даже один (смежный) фрагмент аудиоконтента зачастую содержит пассажи (либо части или кадры) различных видов, некоторые из которых должны кодироваться (и, следовательно, декодироваться) с использованием направляемого параметрами расширения полосы пропускания, в то время как другие пассажи или кадры могут декодироваться с использованием расширения полосы пропускания вслепую без существенного ухудшения качества звука.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью оценивать флаги, включенные в кодированную аудиоинформацию для различных частей (например, кадров) аудиоконтента, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания (например, для кадра, с которым ассоциирован флаг). Соответственно, определение того, должно использоваться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, поддерживается простым, и аудиодекодер не должен иметь существенной интеллектуальности, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания.

Тем не менее, в другом предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания. Таким образом, за счет обеспечения интеллектуальности в аудиодекодере может исключаться флаг сигнализации режима расширения полосы пропускания, что сокращает скорость передачи битов.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части (аудиоконтента). Обнаружено, что свойства декодированного представления низкочастотной части составляют величины, которые могут использоваться с хорошей точностью для того, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. Это является, в частности, верным, если на стороне аудиокодера используются те же свойства. Соответственно, более не обязательно оценивать флаг сигнализации режима расширения полосы пропускания, что, в свою очередь, обеспечивает возможность уменьшения скорости передачи битов, поскольку не обязательно включать флаг сигнализации режима расширения полосы пропускания в кодированное аудиопредставление на стороне аудиокодера.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании квантованных коэффициентов линейного прогнозирования и/или статистики во временной области декодированного представления низкочастотной части (аудиоконтента). Обнаружено, что квантованные коэффициенты линейного прогнозирования могут легко получаться на стороне аудиодекодера и за счет обеспечения возможности извлекать спектральный наклон, как следствие, могут служить в качестве хорошего индикатора того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. Кроме того, квантованные коэффициенты линейного прогнозирования также являются легкодоступными на стороне аудиокодера, так что можно легко координировать переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания на стороне аудиокодера и на стороне аудиодекодера. Аналогично, обнаружено, что статистика во временной области декодированного представления низкочастотной части, такая как частота переходов через нуль, представляет собой надежную величину для определения того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания на стороне аудиодекодера.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием одного или более свойств декодированного представления низкочастотной части и/или с использованием одного или более параметров низкочастотного декодера для временных частей входной аудиоинформации (или контента), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Обнаружено, что такое расширение полосы пропускания вслепую приводит к высокому качеству звука.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием информации (спектрального) наклона, и/или с использованием кодированных коэффициентов фильтрации для временных частей входной аудиоинформации (или контента), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Обнаружено, что использование этих величин дает в результате эффективный способ получать расширение полосы пропускания с хорошим качеством.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Обнаружено, что использование параметров потока битов, описывающих спектральную огибающую высокочастотной части, обеспечивает возможность эффективного по скорости передачи битов направляемого параметрами расширения полосы пропускания с хорошим качеством, при этом параметры потока битов, описывающие спектральную огибающую, обычно не требуют высокой скорости передачи битов, и могут кодироваться только с сравнительно небольшим числом битов в расчете на аудиокадр. Следовательно, даже переключение на направляемое параметрами расширение полосы пропускания не приводит к существенному увеличению скорости передачи битов.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью оценивать от трех до пяти параметров потока битов, описывающих интенсивности высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, чтобы получать сигнал расширения полосы пропускания. Обнаружено, что сравнительно небольшое число параметров потока битов является достаточным для того, чтобы получать расширение полосы пропускания в перцепционно важном диапазоне, так что высокое качество звука может получаться с небольшим увеличением скорости передачи битов.

В предпочтительном варианте осуществления от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, скалярно квантуются с разрешением в 2 или 3 бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на аудиокадр. Обнаружено, что такой выбор обеспечивает очень высокую эффективность по скорости передачи битов направляемого параметрами расширения полосы пропускания, в то время как качество расширения полосы пропускания обычно является сравнимым с качеством расширения полосы пропускания, получаемым с использованием расширения полосы пропускания вслепую для «некритических» частей аудиоконтента, в которых расширение полосы пропускания вслепую предлагает хорошие результаты. Соответственно, обеспечивается сбалансированное качество как в случае, если применяется расширение полосы пропускания вслепую, так и в случае, если применяется направляемое параметрами расширение полосы пропускания.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью осуществлять сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую. Соответственно, могут не допускаться щелчки или «артефакты блочности», которые могут вызываться посредством различных свойств расширения полосы пропускания вслепую и направляемого параметрами расширения полосы пропускания.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью гасить высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую. Кроме того, расширение полосы пропускания выполнено с возможностью уменьшать гашение для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания. Соответственно, может компенсироваться в некоторой степени такой эффект, что расширение полосы пропускания вслепую обычно показывает характеристику нижних частот, при том, что это не обязательно имеет место для направляемого параметрами расширения полосы пропускания. Соответственно, уменьшаются артефакты при переходах между частями аудиоконтента, декодированными с использованием расширения полосы пропускания вслепую и с использованием направляемого параметрами расширения полосы пропускания.

Другой вариант осуществления согласно изобретению обеспечивает способ обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Способ содержит кодирование низкочастотной части входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Способ также содержит обеспечение информации расширения полосы пропускания на основании входной аудиоинформации. Информация расширения полосы пропускания избирательно включена в кодированную аудиоинформацию сигнально-адаптивным способом. Этот способ основан на соображениях, идентичных соображениям для вышеописанного аудиокодера.

Другой вариант осуществления согласно изобретению обеспечивает способ обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации. Способ содержит декодирование кодированного представления низкочастотной части для того, чтобы получать декодированное представление низкочастотной части. Способ дополнительно содержит получение сигнала расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Способ дополнительно содержит получение сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Этот способ основан на соображениях, идентичных соображениям для вышеописанного аудиодекодера.

Другой вариант осуществления согласно изобретению создает компьютерную программу для осуществления одного из вышеуказанных способов, когда компьютерная программа работает на компьютере.

Другой вариант осуществления согласно изобретению создает кодированное аудиопредставление, представляющее аудиоинформацию. Кодированное аудиопредставление содержит кодированное представление низкочастотной части аудиоинформации и информации расширения полосы пропускания. Информация расширения полосы пропускания включена в кодированное аудиопредставление сигнально-адаптивным способом для некоторых, но не для всех частей аудиоинформации. Эта кодированная аудиоинформация обеспечивается посредством аудиокодера, описанного выше, и может быть оценена посредством аудиодекодера, описанного выше.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ниже описаны варианты осуществления согласно настоящему изобретению со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления настоящего изобретения;

Фиг. 2 показывает принципиальную блок-схему аудиокодера согласно другому варианту осуществления настоящего изобретения;

Фиг. 3 показывает графическое представление частотных частей и кодированной аудиоинформации, ассоциированной с ними;

Фиг. 4 показывает принципиальную блок-схему аудиодекодера согласно варианту осуществления настоящего изобретения;

Фиг. 5 показывает принципиальную блок-схему аудиодекодера согласно другому варианту осуществления настоящего изобретения;

Фиг. 6 показывает блок-схему способа обеспечения кодированного аудиопредставления согласно варианту осуществления настоящего изобретения;

Фиг. 7 показывает блок-схему способа обеспечения декодированного аудиопредставления согласно варианту осуществления настоящего изобретения;

Фиг. 8 показывает схематичную иллюстрацию кодированного аудиопредставления согласно варианту осуществления настоящего изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

1. Аудиокодер согласно фиг. 1

Фиг. 1 показывает принципиальную блок-схему аудиокодера, согласно варианту осуществления настоящего изобретения.

Аудиокодер 100 согласно фиг. 1 принимает входную аудиоинформацию 110 и обеспечивает на основании ее кодированную аудиоинформацию 112. Аудиокодер 100 содержит низкочастотный кодер 120, который выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации 110 с тем, получать кодированное представление 122 низкочастотной части. Аудиокодер 100 также содержит блок 130 обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации 132 расширения полосы пропускания на основании входной аудиоинформации 110. Аудиокодер 100 выполнен с возможностью избирательно включать информацию 132 расширения полосы пропускания в кодированную аудиоинформацию 112 сигнально-адаптивным способом.

Относительно функциональности аудиокодера 100 можно сказать, что аудиокодер 100 обеспечивает эффективное по скорости передачи битов кодирование входной аудиоинформации 110. Низкочастотная часть, например, в частотном диапазоне приблизительно вплоть до 6 или 7 кГц, кодируется с использованием низкочастотного кодера 120, в котором может использоваться любой из известных принципов кодирования аудио. Например, низкочастотный кодер 120 может представлять собой «общий аудиокодер» (такой как, например, AAC-аудиокодер) или речевой аудиокодер (такой как, например, аудиокодер на основании линейного прогнозирования, CELP-аудиокодер, ACELP-аудиокодер и т.п.). Соответственно, низкочастотная часть входной аудиоинформации кодируется с использованием любых из традиционных принципов. Тем не менее, скорость передачи битов кодированного представления 122 низкочастотной части поддерживается обоснованно небольшой, поскольку кодируются только частотные компоненты приблизительно вплоть до 6-7 кГц. Кроме того, аудиокодер 100 допускает обеспечение информации расширения полосы пропускания, например, в форме параметров расширения полосы пропускания, описывающих высокочастотную часть входной аудиоинформации 110, такую как, например, частотная область, содержащая более высокие частоты по сравнению с частотной областью, кодированной посредством низкочастотного кодера 120. Таким образом, блок 130 обеспечения информации расширения полосы пропускания допускает обеспечение вспомогательной информации кодированной аудиоинформации 112, которая может управлять расширением полосы пропускания, выполняемым на стороне аудиодекодера, не показанного на фиг. 1. Информация расширения полосы пропускания (или вспомогательная информация расширения полосы пропускания), например, может представлять спектральную форму (или спектральную огибающую) высокочастотной части входной аудиоинформации, т.е. частотного диапазона входной аудиоинформации, который не покрыт низкочастотным кодером 120.

Тем не менее, аудиокодер 100 выполнен с возможностью определять, сигнально-адаптивным способом, то, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 112. Соответственно, аудиокодер 100 допускает включение информации расширения полосы пропускания в кодированную аудиоинформацию 112 только в том случае, если информация расширения полосы пропускания требуется (или по меньшей мере является желательной) для восстановления аудиоинформации на стороне аудиодекодера. В этом контексте аудиокодер также может управлять тем, следует ли обеспечивать информацию 132 расширения полосы пропускания посредством блока 130 обеспечения информации расширения полосы пропускания для части входной аудиоинформации (или, эквивалентно, для части кодированной аудиоинформации), поскольку, разумеется, не обязательно обеспечивать информацию расширения полосы пропускания для части входной аудиоинформации (или кодированной аудиоинформации), если информация расширения полосы пропускания не должна быть включена в кодированную аудиоинформацию. Соответственно, аудиокодер 100 допускает поддержание скорости передачи битов для кодированной аудиоинформации 112 как можно меньшей посредством недопущения включения информации 132 расширения полосы пропускания в кодированную аудиоинформацию 112, если обнаружено, на основании некоторого процесса анализа и/или процесса принятия решений, выполняемого посредством аудиокодера 100, то, что информация расширения полосы пропускания не требуется для получения определенного качества звука при восстановлении соответствующей части аудиоконтента на стороне аудиодекодера.

Таким образом, аудиокодер 100 включает информацию расширения полосы пропускания в кодированную аудиоинформацию только в том случае, если она требуется (для того чтобы получать определенное качество звука) на стороне аудиодекодера, что, с одной стороны, помогает сокращать скорость передачи битов для кодированной аудиоинформации 112, а с другой стороны, обеспечивает то, что надлежащая информация 132 расширения полосы пропускания включена в кодированную аудиоинформацию 112, если она требуется для того, чтобы не допускать плохого качества звука при декодировании кодированной аудиоинформации на стороне аудиодекодера. Таким образом, улучшенный компромисс между скоростью передачи битов и качеством звука достигается посредством аудиокодера 100 по сравнению с традиционными решениями.

Например, аудиодекодер может определять, в расчете на аудиокадр, то, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 112 (или даже то, должна ли определяться информация расширения полосы пропускания). Тем не менее, в качестве альтернативы аудиодекодер может определять, в расчете на «ввод» (например, в расчете на аудиофайл или в расчете на аудиопоток), то, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 112. С этой целью ввод может быть проанализирован (например, до кодирования), так что решение принимается сигнально-адаптивным способом.

2. Аудиокодер согласно фиг. 2

Фиг. 2 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления настоящего изобретения. Аудиокодер 200 принимает входную аудиоинформацию 210 и обеспечивает на основании ее кодированную аудиоинформацию 212. Аудиокодер 200 содержит низкочастотный кодер 220, который может быть практически идентичным низкочастотному кодеру 120, описанному выше. Низкочастотный кодер 220 обеспечивает кодированное представление 222 низкочастотной части входной аудиоинформации (или, эквивалентно, аудиоконтента, представленного посредством входной аудиоинформации 210). Аудиокодер 200 также содержит блок 230 обеспечения информации расширения полосы пропускания, который может быть практически идентичным блоку 130 обеспечения информации расширения полосы пропускания, описанному выше. Блок 230 обеспечения информации расширения полосы пропускания обычно принимает входную аудиоинформацию 210. Тем не менее, блок 230 обеспечения информации расширения полосы пропускания также может принимать управляющую информацию (или промежуточную информацию) из низкочастотного кодера 220, при этом упомянутая управляющая информация (или промежуточная информация), например, может содержать информацию относительно спектра (спектральной формы или спектральной огибающей) низкочастотной части входной аудиоинформации 210. Тем не менее, управляющая информация (или промежуточная информация) также может содержать параметры кодирования (например, коэффициенты LPC-фильтрации либо значения в области преобразования, такие как MDCT-коэффициенты или QMF-коэффициенты) и т.п. Кроме того, блок 230 обеспечения информации расширения полосы пропускания при необходимости может принимать кодированное представление 222 низкочастотной части или по меньшей мере ее части. Кроме того, аудиокодер 200 содержит детектор 240, который выполнен с возможностью определять, включена ли информация расширения полосы пропускания в кодированную аудиоинформацию 212 для данной части входной аудиоинформации 210 (или для данной части кодированной аудиоинформации 212). При необходимости детектор 240 также может определять, определяется ли упомянутая информация расширения полосы пропускания посредством блока 230 обеспечения информации расширения полосы пропускания для упомянутой данной части входной аудиоинформации 210 (или кодированной аудиоинформации 212). Следовательно, детектор 240 может принимать входную аудиоинформацию 210 и/или управляющую информацию или промежуточную информацию 224 из низкочастотного кодера 220 (например, как описано выше) и/или кодированное представление 222 низкочастотной части. Кроме того, детектор 240 выполнен с возможностью обеспечивать управляющий сигнал 242, который управляет избирательным обеспечением информации расширения полосы пропускания и/или избирательным включением информации расширения полосы пропускания в кодированную аудиоинформацию 212.

Относительно функциональности аудиокодера 200 следует обратиться к вышеприведенным пояснениям, приведенным относительно аудиокодера 100.

Кроме того, следует отметить, что детектор 240 играет центральную роль, поскольку детектор 240 определяет то, включена ли информация расширения полосы пропускания в кодированную аудиоинформацию 212, и, следовательно, определяет то, восстанавливает аудиодекодер, который принимает кодированную аудиоинформацию 212, аудиоконтент, который описывается посредством входной аудиоинформации 210, с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания (при этом информация расширения полосы пропускания представляет параметры, направляющие направляемое параметрами расширение полосы пропускания).

Вообще говоря, детектор идентифицирует части входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством на основании кодированного представления 222 низкочастотной части с использованием расширения полосы пропускания вслепую. Другими словами, детектор 240 должен распознавать, когда одно только кодированное представление 222 низкочастотной части не обеспечивает возможность расширения полосы пропускания вслепую с достаточным качеством. Иными словами, детектор 240 предпочтительно идентифицирует части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной (или желаемой) точностью для достижения приемлемого (или желаемого) качества звука. Следовательно, детектор 240 может определять, с использованием управляющего сигнала 242, то, что информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию для частей входной аудиоинформации, которая не может декодироваться с достаточным или желаемым качеством на основании кодированного представления 222 низкочастотной части с использованием расширения полосы пропускания вслепую (т.е. без приема информации расширения полосы пропускания из кодера). Эквивалентно, детектор может определять, с использованием управляющего сигнала 242, то, что информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию для частей входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части (или, эквивалентно, кодированного представления 222 низкочастотной части) с достаточной или желаемой точностью.

Чтобы идентифицировать такие части, для которых информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию (или, эквивалентно, чтобы идентифицировать части входной аудиоинформации, для которых при необходимости можно включать информацию расширения полосы пропускания в кодированную аудиоинформацию 212), детектор 240 может использовать различные стратегии. Как упомянуто выше, детектор 240 может принимать различные типы входной информации. В некоторых случаях, определение посредством детектора того, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 212, может быть основано исключительно на входной аудиоинформации 210. Другими словами, детектор 240, например, может быть выполнен с возможностью анализировать входную аудиоинформацию 210, с тем чтобы выявлять то, для какой части входной аудиоинформации (которая соответствует частям кодированной аудиоинформации 212) необходимо включать информацию 232 расширения полосы пропускания в кодированную аудиоинформацию 212 для того, чтобы достигать приемлемого (или желаемого) качества звука. Тем не менее, определение посредством детектора 240 в качестве альтернативы может быть основано на некоторой управляющей информации или промежуточной информации 224, обеспеченной посредством низкочастотного кодера 200. В качестве альтернативы или дополнения, определение посредством детектора 240 может быть основано на кодированном представлении 222 низкочастотной части входной аудиоинформации 210. Таким образом, детектор может оценивать различные величины, чтобы определять (или оценивать) то, должно ли расширение полосы пропускания вслепую на стороне аудиодекодера приводить к достаточному качеству звука (или с большой вероятностью приводить к достаточному качеству звука, или предположительно приводить к достаточному качеству звука).

Например, детектор может определять то, являются ли части входной аудиоинформации 210 неподвижными во времени частями, и то, имеют ли части входной аудиоинформации 210 низкочастотный характер. Например, детектор 240 может прийти к заключению, что не обязательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию 212 для частей, которые, как выявлено, являются неподвижными во времени частями, и которые имеют низкочастотный характер, поскольку следует признать, что такие части входной аудиоинформации 210 обычно могут воспроизводиться с достаточно высоким качеством звука на стороне аудиодекодера даже при использовании расширения полосы пропускания вслепую. Это обусловлено этим фактом, что расширение полосы пропускания вслепую обычно хорошо работает для частей входной аудиоинформации (или контента), которые не содержат сильные изменения аудиоконтента (либо которые не содержат переходные части или другие сильные варьирования аудиоконтента) и, следовательно, могут считаться неподвижными во времени. Кроме того, обнаружено, что расширение полосы пропускания вслепую хорошо работает для частей аудиоконтента, которые имеют низкочастотный характер, т.е. для части аудиоконтента, для которой интенсивность низкочастотной части выше интенсивности высокочастотной части, поскольку это является фундаментальным допущением в отношении большинства принципов расширения полосы пропускания вслепую. Соответственно, детектор 240 может сигнализировать с использованием управляющего сигнала 242 необходимость избирательно исключать включение информации расширения полосы пропускания в кодированную аудиоинформацию 212 для таких неподвижных во времени частей, имеющих низкочастотный характер.

Например, детектор 240 может быть выполнен с возможностью идентифицировать части входной аудиоинформации, которые содержат вокализованную речь, и/или части входной аудиоинформации, которые содержат шум окружающей среды, и/или части входной аудиоинформации, которые содержат музыку без ударных инструментов. Такие части входной аудиоинформации обычно являются неподвижными во времени и имеют низкочастотный характер, так что детектор 240 обычно сигнализирует необходимость исключить включение информации расширения полосы пропускания в кодированную аудиоинформацию для таких частей.

В качестве альтернативы или дополнения детектор 240 может анализировать то, может ли спектральная форма в высокочастотной части входной аудиоинформации прогнозироваться с обоснованной точностью (например, с использованием принципов, применяемых посредством расширения полосы пропускания вслепую), на основании спектральной огибающей низкочастотной части. Соответственно, детектор, например, может быть выполнен с возможностью определять то, превышает или равна либо нет разность между спектральной огибающей низкочастотной части (которая может описываться, например, посредством промежуточной информации 224 или посредством кодированного представления 222 низкочастотной части) и спектральной огибающей высокочастотной части (которая, например, может определяться посредством детектора 240 на основании входной аудиоинформации 210) заданному показателю разности. Например, детектор 240 может определять разницу с точки зрения разности интенсивности или с точки зрения разности формы, либо с точки зрения варьирования по частоте, либо с точки зрения любых других отличительных признаков спектральных огибающих. Соответственно, детектор 240 может определять (и сигнализировать) необходимость включать информацию 232 расширения полосы пропускания во входную аудиоинформацию, в ответ на такие выявленные сведения, что разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части превышает или равна заданному показателю разности. Другими словами, детектор 240 может определять то, насколько хорошо спектральная огибающая высокочастотной части может прогнозироваться на основании спектральной огибающей низкочастотной части, и если прогнозирование является невозможным с хорошими результатами (что, например, имеет место в случае, если прогнозная спектральная огибающая высокочастотной части слишком существенно отличается от фактической спектральной огибающей высокочастотной части), можно прийти к выводу, что информация 232 расширения полосы пропускания должна требоваться на стороне аудиодекодера. Тем не менее, вместо сравнения прогнозной спектральной огибающей высокочастотной части с фактической спектральной огибающей высокочастотной части, детектор 240, в качестве альтернативы, может сравнивать спектральную огибающую низкочастотной части со спектральной огибающей высокочастотной части. Это целесообразно, если предполагается, что спектральная огибающая высокочастотной части обычно является аналогичной спектральной огибающей низкочастотной части при применении оценки полосы пропускания вслепую.

В качестве альтернативы или дополнения детектор 240 может идентифицировать части, содержащие невокализованную речь, и/или части, содержащие звуки ударных инструментов. Поскольку спектральная огибающая высокочастотной части обычно сильно отличается от спектральной огибающей низкочастотной части в таких случаях, детектор может сигнализировать необходимость включать информацию расширения полосы пропускания в кодированное аудиопредставление для таких частей входной аудиоинформации (или кодированной аудиоинформации), содержащих невокализованную речь или содержащих звуки ударных инструментов.

Тем не менее, в качестве альтернативы или дополнения детектор 240 может анализировать спектральный наклон частей входной аудиоинформации 210. Кроме того, детектор 240 может использовать информацию относительно спектрального наклона частей входной аудиоинформации для того, чтобы определять то, должна ли информация 232 расширения полосы пропускания быть включена в кодированную аудиоинформацию 212. Такой принцип основан на такой идее, что расширение полосы пропускания вслепую хорошо работает для частей аудиоконтента, для которых имеется большая энергия (или, в общем, интенсивность) в низкочастотном диапазоне по сравнению с высокочастотным диапазоном. Напротив, если высокочастотная часть (также обозначаемая как высокочастотный диапазон) является «доминирующей», т.е. содержит значительную величину энергии, расширение полосы пропускания вслепую обычно не может хорошо воспроизводить аудиоконтент, так что информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию. Соответственно, в некоторых вариантах осуществления детектор определяет то, превышает или равен либо нет спектральный наклон (который описывает распределение энергий или, в общем, интенсивности по частоте) фиксированному или переменному пороговому значению наклона. Если спектральный наклон превышает или равен фиксированному или переменному пороговому значению наклона (что означает то, что имеется сравнительно большая энергия или интенсивность в высокочастотной части аудиоконтента по меньшей мере по сравнению с «нормальным» случаем, в котором энергия или интенсивность снижается с увеличением частоты), детектор может определять необходимость включать информацию расширения полосы пропускания в кодированную аудиоинформацию.

В дополнение к некоторым или всем вышеуказанным признакам детектор также может оценивать частоту переходов через нуль частей входной аудиоинформации. Кроме того, определение посредством детектора того, следует ли включать информацию расширения полосы пропускания, также может быть основано на том, превышает или равна либо нет определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль. Этот принцип основан на таком соображении, что высокая частота переходов через нуль обычно указывает то, что высокие частоты играют важную роль во входной аудиоинформации, которая, в свою очередь, указывает то, что направляемое параметрами расширение полосы пропускания должно использоваться на стороне аудиодекодера.

Кроме того, следует отметить, что детектор 240 предпочтительно может использовать некоторый гистерезис, чтобы не допускать избыточного переключения между включением информации 232 расширения полосы пропускания в кодированную аудиоинформацию и исключением упомянутого включения. Например, гистерезис может применяться к переменному пороговому значению наклона, к переменному пороговому значению частоты переходов через нуль либо к любому другому пороговому значению, которое используется для того, чтобы определять переход от включения информации расширения полосы пропускания к недопущению упомянутого включения, или наоборот. Таким образом, гистерезис может варьировать пороговое значение, чтобы уменьшать вероятность переключения на исключение включения информации расширения полосы пропускания, когда информация расширения полосы пропускания включена для текущей части входной аудиоинформации. Аналогично, пороговое значение может варьироваться, чтобы уменьшать вероятность для переключения на включение информации расширения полосы пропускания, когда включение информации расширения полосы пропускания не допускается для текущей части входной аудиоинформации. Таким образом, могут уменьшаться артефакты, которые могут вызываться посредством переходов между различными режимами.

Далее, поясняются некоторые подробности касательно блока 230 обеспечения информации расширения полосы пропускания. В частности, поясняется то, какая информация включена в кодированную аудиоинформацию 212 в ответ на сигнализацию детектором того, что информация 232 расширения полосы пропускания должна быть включена в кодированную аудиоинформацию. В целях пояснений, также следует обратиться к фиг. 3, который показывает схематичное представление частотных частей входной аудиоинформации и параметров, включенных в кодированное аудиопредставление. Абсцисса 310 описывает частоту, а ордината 312 описывает интенсивность (например, интенсивность, к примеру, амплитуду или энергия) различных спектральных элементов выборки (таких как, например, MDCT-коэффициенты, QMF-коэффициенты, FFT-коэффициенты и т.п.). Как можно видеть, низкочастотная часть входной аудиоинформации, например, может покрывать частотный диапазон от более низкочастотной границы (например, 0 или 50 Гц, или 300 Гц, или любой другой обоснованной более низкочастотной границы) вплоть до частоты приблизительно в 6,4 кГц. Как можно видеть, кодированное представление 222 может быть обеспечено для этой низкочастотной части (например, от 300 Гц до 6,4 кГц и т.п.). Кроме того, предусмотрена высокочастотная часть, которая, например, колеблется от 6,4 кГц до 8 кГц. Тем не менее, высокочастотная часть, разумеется, может покрывать другой частотный диапазон, который обычно ограничивается посредством частотного диапазона, воспринимаемого слушателем-человеком. Тем не менее, на фиг. 3 можно видеть, что, в качестве примера, спектральная огибающая, показанная посредством ссылки с номером 320, содержит нерегулярную форму в высокочастотной части. Кроме того, можно видеть, что спектральная огибающая 320 содержит сравнительно большую энергию в высокочастотной части и даже сравнительно высокую энергию в 7,2-7,6 кГц. Для сравнения, вторая спектральная огибающая 330 также показана на фиг. 3, при этом вторая спектральная огибающая 330 показывает затухание интенсивности или энергии (например, в расчете на единичную частоту) в высокочастотной части. Соответственно, спектральная огибающая 320 обычно должна заставлять детектор выполнять определение на предмет включения информации расширения полосы пропускания в кодированное аудиопредставление для части, содержащей спектральную огибающую 320, в то время как спектральная огибающая 330 обычно должна заставлять детектор выполнять определение на предмет исключения включения информации расширения полосы пропускания для части аудиоконтента, содержащей спектральную огибающую 330.

Как также можно видеть, для части аудиоконтента, содержащей спектральную огибающую 320, четыре скалярных параметра должны быть включены в кодированное аудиопредставление в качестве информации расширения полосы пропускания. Первый скалярный параметр, например, может описывать спектральную огибающую (или среднее спектральной огибающей) для частотной области в 6,4-6,8 кГц, второй скалярный параметр может описывать спектральную огибающую 320 (или ее среднее) для частотной области в 6,8-7,2 кГц, третий скалярный параметр может описывать спектральную огибающую 320 (или ее среднее) для частотной области в 7,2-7,6 кГц, и четвертый скалярный параметр может описывать спектральную огибающую (или ее среднее) для частотной области в 7,6-8 кГц. Скалярные параметры могут описывать спектральную огибающую абсолютным или относительным способом, например, в отношении спектрально предыдущего частотного диапазона (или области). Например, первый скалярный параметр может описывать отношение интенсивности (которое, например, может быть нормализовано как некоторая величина) между спектральной огибающей в частотной области в 6,4-6,8 кГц и спектральной огибающей в области более низких частот (например, ниже 6,4 кГц). Второй, третий и четвертый скалярные параметры, например, могут описывать разность (или отношение) между (интенсивностями) спектральной огибающей в смежных частотных диапазонах, так что, например, второй скалярный параметр может описывать отношение между (средним значением) спектральной огибающей в частотном диапазоне в 6,8-7,2 кГц и спектральной огибающей в частотном диапазоне в 6,4-6,8 кГц.

Кроме того, следует отметить, что кодированное представление низкочастотной части, т.е. частотной части ниже 6,4 кГц, может быть включено в любом случае. Частотная часть ниже 6,4 кГц (низкочастотная часть) может кодироваться с использованием любых из известных принципов кодирования, например, с использованием «общего» кодирования аудиоданных, такого как AAC (либо его производной), или кодирования речи (такого как, например, CELP, ACELP либо его производной). Соответственно, для части аудиоконтента, содержащей спектральную огибающую 320, как кодированное представление низкочастотной части, так и четыре скалярных параметра расширения полосы пропускания (которые могут квантоваться с использованием сравнительно небольшого числа битов) должны быть включены в кодированное аудиопредставление. Напротив, для части аудиоконтента, содержащей спектральную огибающую 330, только кодированное представление низкочастотной части должно быть включено в кодированное аудиопредставление, а (скалярные) параметры расширения полосы пропускания не должны быть включены в кодированное аудиопредставление (что, тем не менее, не вызывает серьезные проблемы, поскольку спектральная огибающая 330 демонстрирует регулярную затухающую характеристику (нижних частот), которая может быть хорошо воспроизведена с использованием расширения полосы пропускания вслепую).

В качестве вывода, аудиокодер 200 выполнен с возможностью избирательно включать параметры, представляющие спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания. Например, скалярные параметры расширения полосы пропускания, упомянутые со ссылкой на фиг. 3, могут быть включены в кодированную аудиоинформацию сигнально-адаптивным способом. Вообще говоря, низкочастотный кодер 220 может быть выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации 210, содержащую частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц (при этом граница в 6,4 кГц использована в примере по фиг. 3). Кроме того, аудиокодер может быть выполнен с возможностью избирательно включать в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц. В примере по фиг. 3, показаны четыре скалярных параметра, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания приблизительно в 400 Гц. Другими словами, аудиокодер может быть выполнен с возможностью включать в кодированное аудиопредставление четыре скалярно квантованных параметра, описывающих интенсивность четырех высокочастотных частей сигнала, причем высокочастотные части сигнала покрывают частотные диапазоны (например, как показано на фиг. 3) выше низкочастотной части (например, как пояснено со ссылкой на фиг. 3). Например, аудиокодер может быть выполнен с возможностью избирательно включать в кодированное аудиопредставление множество параметров, описывающих взаимосвязь между энергиями или интенсивностями спектрально смежных частотных частей, при этом один из параметров описывает отношение между энергией или интенсивностью первой высокочастотной части расширения полосы пропускания и энергией или интенсивностью низкочастотной части, и при этом другие из параметров описывают отношения между энергиями или интенсивностями других высокочастотных частей расширения полосы пропускания (при этом высокочастотные части расширения полосы пропускания могут представлять собой частотные части в 6,4-6,8 кГц, в 6,8-7,2 кГц, в 7,2-7,6 кГц и в 7,6-8 кГц). В качестве альтернативы, могут векторно квантоваться от трех до пяти параметров формы огибающей (описывающих интенсивности высокочастотных частей сигнала). Векторное квантование обычно является немного более эффективным, чем скалярное квантование. С другой стороны, векторное квантование является более сложным, чем скалярное квантование. Другими словами, квантование четырех значений энергии расширения полосы пропускания в качестве альтернативы может выполняться с использованием векторного квантования (вместо использования скалярного квантования).

В качестве вывода, аудиокодер может быть выполнен с возможностью включать сравнительно простую информацию расширения полосы пропускания в кодированное аудиопредставление, так что скорость передачи битов кодированного аудиопредставления только немного увеличивается для частей входной аудиоинформации (или кодированного аудиопредставления), для которых посредством детектора обнаружено то, что желательно направляемое параметрами расширение полосы пропускания.

3. Аудиодекодер согласно фиг. 4

Фиг. 4 показывает принципиальную блок-схему аудиодекодера согласно варианту осуществления настоящего изобретения. Аудиодекодер 400 согласно фиг. 4 принимает кодированную аудиоинформацию 410 (которая, например, может обеспечиваться посредством аудиокодера 100 или посредством аудиокодера 200) и обеспечивает на основании ее декодированную аудиоинформацию 412.

Аудиодекодер 400 содержит низкочастотный декодер 420, который принимает кодированную аудиоинформацию 410 (или по меньшей мере кодированное представление низкочастотной части, включенное в нее), декодирует кодированное представление низкочастотной части и получает декодированное представление 422 низкочастотной части. Аудиодекодер 400 также содержит расширение 430 полосы пропускания, которое выполнено с возможностью получать сигнал 432 расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей (кодированного) аудиоконтента (представленных посредством кодированной аудиоинформации 410), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию 410, и получает сигнал 432 расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания (при помощи информации расширения полосы пропускания или параметров расширения полосы пропускания, включенных в кодированную аудиоинформацию 410) для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию 410 (или кодированное аудиопредставление).

Соответственно, аудиодекодер 400 допускает выполнение расширения полосы пропускания независимо от того, включены ли параметры расширения полосы пропускания в кодированную аудиоинформацию 410. Таким образом, аудиодекодер может адаптироваться к кодированной аудиоинформации 410 и предусматривает принцип, в котором возникает переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания. Следовательно, аудиодекодер 400 допускает обработку кодированной аудиоинформации 410, в которой параметры расширения полосы пропускания включаются только для частей (например, кадров) аудиоконтента, которые не могут быть восстановлены с достаточным качеством с использованием расширения полосы пропускания вслепую. Таким образом, может обеспечиваться декодированная аудиоинформация 412, которая содержит как декодированное представление низкочастотной части, так и сигнал расширения полосы пропускания (при этом сигнал, например, может добавляться в декодированное представление 422 низкочастотной части, чтобы за счет этого получать декодированную аудиоинформацию 412).

Таким образом, аудиодекодер 400 помогает получать хороший компромисс между качеством звука и скоростью передачи битов.

Ниже описывается дополнительное факультативное улучшение аудиодекодера 400, например, со ссылкой на фиг. 5.

4. Аудиодекодер согласно фиг. 5

Фиг. 5 показывает принципиальную блок-схему аудиодекодера 500, согласно другому варианту осуществления настоящего изобретения. Аудиодекодер 500 принимает кодированную аудиоинформацию 510 (также обозначаемую как кодированное аудиопредставление) и обеспечивает на основании ее декодированную аудиоинформацию 512 (также обозначаемую как декодированное аудиопредставление). Аудиодекодер 500 содержит низкочастотный декодер 520, который может быть идентичен низкочастотному декодеру 420 и может осуществлять сравнимую функциональность. Таким образом, низкочастотный декодер 500 обеспечивает декодированное представление 522 низкочастотной части аудиоконтента, представленного посредством кодированной аудиоинформации 510. Аудиодекодер 500 также содержит расширение 530 полосы пропускания, которое может осуществляет функциональность, идентичную функциональности расширения 430 полосы пропускания.

Следовательно, расширение 530 полосы пропускания может обеспечивать сигнал 532 расширения полосы пропускания, который обычно комбинируется (например, суммируется) с декодированным представлением 522 низкочастотной части, чтобы за счет этого получать декодированную аудиоинформацию 512. Расширение 530 полосы пропускания, например, может принимать декодированное представление 522 низкочастотной части 522. Тем не менее, в качестве альтернативы, расширение полосы пропускания 532 может принимать управляющую информацию 524 (которая также рассматривается как вспомогательная информация или промежуточная информация), которая обеспечивается посредством низкочастотного декодера 520. Вспомогательная информация или управляющая информация, или промежуточная информация 524, например, может представлять спектральную форму низкочастотной части аудиоконтента, частоты переходов через нуль декодированного представления низкочастотной части либо любую другую промежуточную величину, используемую посредством низкочастотного декодера 520, которая является полезной в процессе расширения полосы пропускания. Кроме того, аудиодекодер содержит контроллер 540, который выполнен с возможностью обеспечивать управляющую информацию 542, указывающую то, должно выполняться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания посредством расширения 530 полосы пропускания. Контроллер 540 может использовать различные типы информации для обеспечения управляющей информации 542. Например, контроллер 540 может принимать флаг потока битов режима расширения полосы пропускания, который может быть включен в кодированную аудиоинформацию 510. Например, может быть предусмотрен один флаг потока битов режима расширения полосы пропускания для каждой части (например, кадра) кодированной аудиоинформации, которая может извлекаться из кодированной аудиоинформации посредством контроллера 540 и которая может использоваться для того, чтобы извлекать управляющую информацию 542 (либо которая может сразу составлять управляющую информацию 542). Тем не менее, в качестве альтернативы, контроллер 540 может принимать информацию, которая представляет низкочастотную часть и/или которая описывает то, как декодировать низкочастотную часть (и которая в силу этого также обозначается как «информация декодирования низкочастотной части»). В качестве альтернативы или дополнения, контроллер 540 может принимать управляющую информацию или вспомогательную информацию, или промежуточную информацию 524 из низкочастотного декодера, которая, например, может переносить информацию относительно спектральной огибающей низкочастотной части и/или информацию относительно частоты переходов через нуль декодированного представления низкочастотной части. Тем не менее, управляющая информация или вспомогательная информация, или промежуточная информация 524 также может переносить информацию относительно статистики декодированного представления 522 низкочастотной части либо может представлять любую другую промежуточную информацию, которая извлекается посредством низкочастотного декодера 520 из кодированного представления низкочастотной части (также обозначаемую как информация декодирования низкочастотной части).

В качестве альтернативы или дополнения контроллер 540 может принимать декодированное представление 522 низкочастотной части и может непосредственно извлекать значения свойств (например, информацию частоты переходов через нуль, информацию спектральной огибающей, информацию спектрального наклона и т.п.) из декодированного представления 522 низкочастотной части.

Соответственно, контроллер 540 может оценивать флаг потока битов, чтобы обеспечивать управляющую информацию 542 относительно режима вслепую/направляемого параметрами режима, если такой флаг потока битов (сигнализирующий, должно ли использоваться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания) включен в кодированную аудиоинформацию 510. Тем не менее, если такой флаг потока битов не включен в кодированную аудиоинформацию 510 (например, чтобы сокращать скорость передачи битов), контроллер 540 обычно определяет то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании другой информации. С этой целью, информация декодирования низкочастотной части (которая может быть идентична кодированному представлению низкочастотной части или его поднабору) может быть оценена посредством контроллера 540. В качестве альтернативы или дополнения контроллер может рассматривать декодированное представление 522 низкочастотной части для принятия решения в отношении того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, т.е. для обеспечения управляющей информации 542. Кроме того, контроллер 540, при необходимости может использовать управляющую информацию или вспомогательную информацию, или промежуточную информацию 524, обеспеченную посредством низкочастотного декодера 520, при условии, что низкочастотный декодер 520 обеспечивает любые промежуточные величины, которые являются применимыми посредством контроллера 540.

Соответственно, контроллер 540 может переключать расширение полосы пропускания между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания.

В случае расширения полосы пропускания вслепую расширение 530 полосы пропускания может обеспечивать сигнал 532 расширения полосы пропускания на основании декодированного представления 522 низкочастотной части без оценки дополнительных параметров потока битов. Напротив, в случае направляемого параметрами расширения полосы пропускания, расширение 530 полосы пропускания может обеспечивать сигнал 532 расширения полосы пропускания с учетом дополнительных (выделенных) параметров потока битов расширения полосы пропускания, которые помогают определять характеристики высокочастотной части аудиоконтента (т.е. характеристики сигнала расширения полосы пропускания). Тем не менее, расширение 530 полосы пропускания также может использовать декодированное представление 522 низкочастотной части и/или управляющей информации или вспомогательной информации, или промежуточной информации 524, обеспеченной посредством низкочастотного декодера 520, чтобы обеспечить сигнал 532 расширения полосы пропускания.

Таким образом, решение между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания эффективно определяет то, применяются ли выделенные параметры расширения полосы пропускания (которые обычно не используются посредством низкочастотного декодера 520 для того, чтобы обеспечить декодированное представление низкочастотной части) для того, чтобы получать сигнал расширения полосы пропускания (который обычно описывает высокочастотную часть аудиоконтента, представленного посредством кодированной аудиоинформации).

Если обобщить вышесказанное, аудиодекодер 500 может быть выполнен с возможностью определять то, следует получать сигнал 532 расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе (при этом «кадр» является примером части аудиоконтента, и при этом кадр, например, может содержать длительность между 10 мс и 40 мс и предпочтительно может иметь длительность приблизительно в 20 мс±2 мс). Таким образом, аудиодекодер может быть выполнен с возможностью переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания с очень точной временной детализацией.

Кроме того, следует отметить, что аудиодекодер 500 обычно допускает переключение между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента. Таким образом, переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания может выполняться практически в любое время (разумеется, с у учетом кадрирования) в пределах смежного фрагмента аудиоконтента, с тем чтобы адаптировать расширение полосы пропускания к (изменяющимся) характеристикам различных частей одного фрагмента аудиоконтента.

Как упомянуто выше, аудиодекодер (предпочтительно, контроллер 540) может быть выполнен с возможностью оценивать флаги (например, один однобитовый флаг в расчете на кадр), включенные в кодированную аудиоинформацию 510 для различных частей (например, кадров) аудиоконтента, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. В этом случае, контроллер 540 может поддерживаться очень простым за счет того, что флаг сигнализации должен быть включен в кодированную аудиоинформацию для каждой части аудиоконтента. Тем не менее, в качестве альтернативы, контроллер 540 может быть выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части (которое может включать в себя использование управляющей информации или вспомогательной информации, или промежуточной информации 524, извлекаемой посредством низкочастотного декодера 520 из упомянутого кодированного представления низкочастотной части, и которое также может включать в себя использование декодированного представления 522, которое извлекается из кодированного представления низкочастотной части посредством низкочастотного декодера 520), без оценки (выделенного) флага сигнализации режима расширения полосы пропускания. Таким образом, переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания может выполняться даже без дополнительного объема служебной информации в потоке битов.

Аудиодекодер (или контроллер 540) может быть выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части. Такие свойства, как, например, информация спектрального наклона, информация частоты переходов через нуль и т.п., либо могут извлекаться из декодированного представления 522 низкочастотной части, либо могут сигнализироваться посредством управляющей информации/вспомогательной информации/промежуточной информации 524. Например, аудиодекодер (или контроллер 540) может быть выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании квантованных коэффициентов линейного прогнозирования (которые, например, могут быть включены в управляющую информацию/вспомогательную информацию/промежуточную информацию 524), и/или в зависимости от статистики во временной области декодированного представления 522 низкочастотной части.

Далее описываются некоторые принципы касательно того, как достигать расширения полосы пропускания. Например, расширение полосы пропускания может быть выполнено с возможностью получать сигнал 532 расширения полосы пропускания с использованием одного или более свойств декодированного представления 522 низкочастотной части и/или одного или более параметров низкочастотного декодера 520 (которые могут сигнализироваться посредством управляющей информации/вспомогательной информации/промежуточной информации 524) для временных частей (входного) аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Таким образом, расширение 530 полосы пропускания может выполнять расширение полосы пропускания вслепую, которое основано на идее делать выводы из декодированного представления низкочастотной части в высокочастотной части аудиоконтента, представленного посредством кодированной аудиоинформации. Например, расширение 530 полосы пропускания может быть выполнено с возможностью получать сигнал 532 расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием (например, кодированных) коэффициентов фильтрации для временных частей входного аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию 510. Соответственно, может достигаться хорошее расширение полосы пропускания вслепую.

Тем не менее, разумеется, также могут применяться другие принципы расширения полосы пропускания вслепую.

Тем не менее, расширение полосы пропускания может быть выполнено с возможностью получать сигнал 532 расширения полосы пропускания с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Другими словами, направляемое параметрами расширение полосы пропускания может выполняться с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части. Параметры потока битов, описывающие спектральную огибающую высокочастотной части, могут поддерживать направляемое параметрами расширение полосы пропускания (которое, тем не менее, дополнительно может основываться на некоторых или всех величинах, используемых посредством расширения полосы пропускания вслепую).

Например, обнаружено, что расширение полосы пропускания предпочтительно должно быть выполнено с возможностью оценивать от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, чтобы получать сигнал расширения полосы пропускания. Использование такого сравнительно небольшого числа параметров потока битов не увеличивает существенно скорость передачи битов, но при этом способствует достаточному улучшению в отношении расширения полосы пропускания в случае «трудных» частей сигнала, так что качество, получаемое посредством такого направляемого расширения полосы пропускания для «трудных» частей сигнала, является сравнимым с качеством, получаемым для «простых» частей сигнала с использованием расширения полосы пропускания вслепую (при этом «трудные» части сигнала представляют собой части сигнала, для которых расширение полосы пропускания вслепую не приводит к хорошему или приемлемому качеству звука, тогда как «простые» части сигнала представляют собой части сигнала, для которых расширение полосы пропускания вслепую способствует достаточным результатам).

Соответственно, предпочтительно, чтобы от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, скалярно квантовались с разрешением в два или три бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на кадр. Обнаружено, что такая низкая скорость передачи битов информации расширения полосы пропускания уже является достаточной для того, чтобы получать достаточно хорошее расширение полосы пропускания в случае «трудных» частей аудиоконтента.

При необходимости расширение 530 полосы пропускания может быть выполнено с возможностью осуществлять сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую. Соответственно, уменьшаются нарушения непрерывности в спектральной форме при переключении между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания. Например, расширение полосы пропускания может быть выполнено с возможностью гасить высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую. Кроме того, расширение полосы пропускания может быть выполнено с возможностью уменьшать гашение для высокочастотной части сигнала расширения полосы пропускания (т.е. в определенной степени подчеркивать высокочастотную часть сигнала расширения полосы пропускания) для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания. Тем не менее, сглаживание также может выполняться посредством любой другой операции, которая уменьшает нарушения непрерывности спектральной формы высокочастотной части при переключении между режимами расширения полосы пропускания. Таким образом, качество звука повышается за счет уменьшения артефактов.

В качестве вывода, аудиодекодер 500 обеспечивает возможность декодирования аудиоконтента с хорошим качеством как в случае, если информация расширения полосы пропускания предусмотрена в кодированной аудиоинформации, так и для случая, если информация расширения полосы пропускания не предусмотрена в кодированной аудиоинформации. Аудиодекодер может переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания с точной временной детализацией (например, на покадровой основе), при этом артефакты поддерживаются небольшими.

5. Способ обеспечения кодированной аудиоинформации на основании входной аудиоинформации, согласно фиг. 6

Фиг. 6 показывает блок-схему способа 600 обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Способ 600 содержит кодирование 610 низкочастотной части входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Способ 600 также содержит обеспечение 620 информации расширения полосы пропускания на основе входной аудиоинформации, при этом информация расширения полосы пропускания избирательно включена в кодированную аудиоинформацию сигнально-адаптивным способом.

Следует отметить, что способ 600 согласно фиг. 6 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно аудиокодера (а также относительно аудиодекодера).

6. Способ обеспечения декодированной аудиоинформации согласно фиг. 7

Фиг. 7 показывает блок-схему способа обеспечения декодированной аудиоинформации согласно варианту осуществления изобретения. Способ 700 содержит декодирование 710 кодированного представления низкочастотной части для того, чтобы получать декодированное представление низкочастотной части. Способ 700 также содержит получение 720 сигнала расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Кроме того, способ 700 содержит получение 730 сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.

Следует отметить, что способ 700 согласно фиг. 7 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно аудиодекодера (а также относительно аудиокодера).

7. Кодированное аудиопредставление согласно фиг. 8

Фиг. 8 показывает схематичную иллюстрацию кодированного аудиопредставления 800, представляющего аудиоинформацию.

Кодированное аудиопредставление (также обозначаемое как кодированная аудиоинформация) содержит кодированное представление низкочастотной части аудиоинформации. Например, кодированное представление 810 низкочастотной части аудиоинформации обеспечивается для первой части аудиоинформации, например, для первого кадра аудиоинформации. Кроме того, кодированное представление низкочастотной части аудиоинформации также обеспечивается для второй части (например, второго кадра) аудиоинформации. Тем не менее, кодированное аудиопредставление 800 также содержит информацию расширения полосы пропускания, при этом информация расширения полосы пропускания включена в кодированное аудиопредставление сигнально-адаптивным способом для некоторых, но не для всех частей аудиоинформации. Например, информация 812 расширения полосы пропускания включена для первой части аудиоинформации. Напротив, информация расширения полосы пропускания не предусмотрена для второй части аудиоинформации.

В качестве вывода, кодированное аудиопредставление 800 обычно обеспечивается посредством аудиокодеров, описанных в данном документе, и оценивается посредством аудиодекодеров, описанных в данном документе. Разумеется, кодированное аудиопредставление может сохраняться на энергонезависимом машиночитаемом носителе и т.п. Кроме того, следует отметить, что кодированное аудиопредставление 800 может дополняться посредством любых из признаков, информационных элементов и т.д., описываемых относительно аудиокодера и аудиодекодера.

8. Заключения и дополнительные аспекты

Варианты осуществления согласно настоящему изобретению разрешают проблемы традиционного расширения полосы пропускания при кодировании аудио с очень низкой скоростью передачи битов и недостатки существующих, традиционных технологий расширения полосы пропускания посредством предложения «минимально направляемого» расширения полосы пропускания в качестве сигнально-адаптивной комбинации расширения полосы пропускания вслепую и направляемого параметрами расширения полосы пропускания, которая:

- использует направляемое расширение полосы пропускания, т.е. передает несколько битов вспомогательной информации каждые 20 мс (например, в расчете на аудиокадр) только в том случае, если высокочастотный контент (например, высокочастотная часть) входного аудио не может быть восстановлен достаточно хорошо из низкочастотного аудио (например, низкочастотной части аудиоконтента),

- использует расширение полосы пропускания вслепую, т.е. классическое восстановление высокочастотных компонентов (например, высокочастотной части) из низкочастотных базовых свойств (например, свойств восстановленной низкочастотной части), таких как спектральный центроид, энергия, наклон, кодированные коэффициенты фильтрации, в противном случае,

- демонстрирует очень низкую вычислительную сложность посредством использования скалярного вместо векторного квантования вспомогательной информации и посредством недопущения операций, заключающих в себе большие количества точек данных, таких как преобразования Фурье и автокорреляция и/или вычисления фильтра,

- является надежной относительно характеристик входного сигнала, т.е. не оптимизирована для конкретных входных сигналов, таких как речь взрослого человека в тихих окружениях, так что она хорошо подходит для всех типов речи, а также музыки.

Вопрос касательно того, какие параметры следует передавать в качестве вспомогательной информации в части направляемого расширения полосы пропускания по вариантам осуществления согласно настоящему изобретению, а также касательно того, когда передавать параметры, по-прежнему должен быть разрешен.

Обнаружено, что в широкополосных кодеках, таких как AMR-WB, спектральная огибающая высокочастотной области выше области базового кодера представляет наиболее критические данные, необходимые (или желаемые) для выполнения расширения полосы пропускания с соответствующим качеством. Все остальные параметры, к примеру, точная спектральная структура и временная огибающая, могут извлекаться из декодированного базового сигнала достаточно точно или имеют небольшую перцепционную важность. Следовательно, направляемая часть минимально направляемого расширения полосы пропускания, описанного здесь, передает только высокочастотную спектральную огибающую в качестве вспомогательной информации (например, в качестве информации расширения полосы пропускания). Это помогает в поддержании на низком уровне скорости передачи вспомогательной информации расширения полосы пропускания. Кроме того, экспериментально обнаружено, что расширения полосы пропускания вслепую обеспечивают достаточное, т.е. по меньшей мере приемлемое качество для пассажей неподвижного во времени сигнала с более или менее явным низкочастотным характером. Вокализованная речь, шум окружающей среды и музыкальные секции без ударных инструментов являются характерными примерами. Фактически, большая часть ввода в широкополосную систему кодирования речи и аудио обычно попадает в эту категорию.

Тем не менее, сегменты сигнала, мгновенные спектры которых демонстрируют существенно отличающуюся огибающую в высокочастотной области (например, в высокочастотной части) по сравнению с низкочастотной областью (или низкочастотной частью) (базового кодера), предпочтительно должны кодироваться через направляемое расширение полосы пропускания, передающее квантованное представление высокочастотной спектральной огибающей в качестве вспомогательной информации (например, в качестве информации расширения полосы пропускания). Причина состоит в том, что в таких спектральных структурах, расширения полосы пропускания вслепую, в общем, неспособны прогнозировать развитие в высокочастотную спектральную огибающую из огибающей базового сигнала, как представлено посредством кодированных коэффициентов фильтрации или остаточного сигнала спектральной формы (что также известно как возбуждение в речевых кодерах). Известными примерами являются невокализованная речь, в частности, сильные фрикативные звуки и аффрикативные звуки, такие как "s" или немецкий "z", а также определенные звуки ударных инструментов главным образом в современной музыке. В вариантах осуществления согласно настоящему изобретению, направляемое расширение полосы пропускания в силу этого активируется только для таких «непредсказуемых» высокочастотных спектров.

Минимально направляемое расширение полосы пропускания согласно настоящему изобретению реализовано в контексте LD-USAC, версии с низкой задержкой xHE-AAC, для того чтобы расширять полосу пропускания широкополосно кодированного (WB-кодированного) сигнала при 13,2 Кбит/с с 6,4 до 8,0 кГц. На стороне кодера, решение по режиму вслепую/направляемому режиму вычисляется в расчете на кадр кодека в 20 мс из спектрального наклона входного сигнала на перцепционной шкале частот (существующего свойств, также используемого в тракте ACELP-кодирования), а также свойств временной области, таких как изменение частоты переходов через нуль входного сигнала, обеспеченного посредством существующего детектора переходных событий (который также используется для других решений по выбору режима кодирования). Более конкретно, если спектральный наклон является положительным, что означает то, что спектральная энергия имеет тенденцию увеличиваться с увеличением частоты и выше указанного порогового значения, и одновременно частота переходов через нуль увеличена на определенное отношение или превышает определенное пороговое значение, что означает то, что текущий кадр представляет начало или находится внутри зашумленного пассажа формы сигнала, то выбирается и сигнализируется направляемое расширение полосы пропускания. В противном случае, выбирается расширение полосы пропускания вслепую. Относительно вышеуказанных пороговых значений, дополнительно применяется простой гистерезис, чтобы уменьшать вероятность взаимного переключения между направляемым расширением полосы пропускания и расширением полосы пропускания вслепую. Когда режим направляемого расширения полосы пропускания приспосабливается для кадра, пороговые значения принятия решения, которые должны использоваться в последующих кадрах, немного снижаются, так что кодек с большей вероятностью должен оставаться в направляемом режиме. Когда определено переключение обратно на режим вслепую, исходные пороговые значения восстанавливаются, делая менее вероятным возврат решения по расширению полосы пропускания в направляемый режим сразу.

Оставшаяся процедура расширения полосы пропускания в расчете на кадр обобщается следующим образом:

1. Если расширение полосы пропускания находится в режиме вслепую, передача 0 с использованием одного бита в потоке битов, чтобы сигнализировать этот режим в декодер. При необходимости невыполнение передачи бита и обеспечение возможности декодеру идентифицировать кадр как использующий режим расширения полосы пропускания вслепую посредством анализа базового сигнала на стороне декодера.

2. Если расширение полосы пропускания находится в направляемом режиме, передача 1 с использованием одного бита в потоке битов. Затем кодер вычисляет четыре индекса частотного усиления, каждый из которых охватывает 400 Гц входного сигнала, чтобы обеспечивать возможность точного формирования спектра в области расширения полосы пропускания в 6,4-8 кГц в декодере. В USAC-реализации с низкой задержкой, каждый из четырех индексов является результатом скалярного квантования одной из четырех QMF-энергий области расширения полосы пропускания относительно предыдущей QMF-энергии (или энергии QMF-спектра в 4,8-6,4 кГц, в случае первого усиления расширения полосы пропускания). Поскольку используется 2-битовый квантователь с ненулевой ступенью с размером шага 2 дБ, усиления покрывают диапазон значений в -3…3 дБ и используют 8 битов в расчете на кадр. Это дает в результате полную вспомогательную информацию в 9 битов в расчете на кадр для направляемого расширения полосы пропускания или при необходимости в 8 битов при исключении сигнализации, как показано на этапе 1.

3. В соответствующем декодере считывается первый бит расширения полосы пропускания. Если он равен 0, используется расширение полосы пропускания вслепую, в противном случае, считываются еще 8 битов, используется и направляемое расширение полосы пропускания. При необходимости считывание первого бита расширения полосы пропускания пропускается (поскольку этот бит не присутствует в потоке битов), и решение по режиму вслепую/направляемому режиму выполняется локально посредством анализа базовых сигналов, как упомянуто на этапе 1.

4. Если режим расширения полосы пропускания вслепую определен в декодере, выполняется расширение полосы пропускания с использованием только свойств декодированного базового сигнала. Это расширение полосы пропускания по существу соответствует принципу расширения полосы пропускания, описанному в одном из ссылочных материалов [2], [3], [6] и [9], но в QMF - вместо DFT-области и только со свойствами с низкой сложностью, извлекаемыми из базового QMF-спектра, например, спектральным центроидом/наклоном.

5. Если режим направляемого расширения полосы пропускания выбран в декодере, четыре 2-битовых индекса усиления обратно квантуются в усиления QMF-энергии и применяются для формирования спектра полос QMF-частот области расширения полосы пропускания, которые восстановлены, как показано на этапе 4. Другими словами, здесь также используется расширение полосы пропускания вслепую, за исключением того, что формирование спектра выполняется через коэффициенты масштабирования, передаваемые в потоке битов, а не через масштабирование, экстраполированное из базового сигнала (которое, как результат, составляет направляемое параметрами расширение полосы пропускания).

6. При переключении между расширением полосы пропускания вслепую и направляемым расширением полосы пропускания от одного кадра до следующего, простое сглаживание высокочастотных энергий выполняется для того, чтобы минимизировать артефакты при переключении (нарушения непрерывности высокочастотной энергии), вызываемые посредством поведения на основании нижних частот расширения полосы пропускания вслепую. Сглаживание по существу выступает в качестве регулятора плавного перехода между расширениями полосы пропускания вслепую и направляемыми расширениями полосы пропускания: первый кадр направляемого расширения полосы пропускания после некоторого кадра(ов) расширения полосы пропускания вслепую немного гасится в высокочастотной области, тогда как высокочастотное гашение первого кадра расширения полосы пропускания вслепую после некоторого направляемого расширения(й) полосы пропускания немного уменьшается.

Для обычного телефонного речевого контента и популярной музыки, эксперименты демонстрируют, что приблизительно 13% всех кадров в 20 мс используют направляемое расширение полосы пропускания в LD-USAC. Следовательно, средняя скорость передачи вспомогательной информации расширения полосы пропускания составляет примерно 2 бита в расчете на кадр или 0,1 Кбит/с. Это намного меньше скоростей (e)SBR (см., например, ссылочный материал [8]) или любых из направляемых расширений полосы пропускания речевого кодера, упоминаемых в данном документе.

Дополнительно следует отметить, что, как предложено в качестве факультативного способа в пошаговом описании выше в этом разделе, может исключаться 1-битовая сигнализация решения по выбору режима расширения полосы пропускания в декодер, если как кодер, так и декодер могут извлекать это решение из базового кодированного сигнала битово-точным способом. Это может достигаться, если кодер выбирает режим расширения полосы пропускания на основании некоторых свойств, извлекаемых из локально декодированного базового сигнала, поскольку он представляет собой единственный сигнал, доступный в декодере. При условии, что ошибки при передаче не возникают в определенном кадре, и как кодер, так и декодер определяют режим расширения полосы пропускания из совершенно идентичных свойств базового сигнала (таких как квантованные LPC-коэффициенты или статистика во временной области из декодированного остаточного сигнала, к примеру частота переходов через нуль, как отмечено выше), решение по выбору режима является идентичным в кодере и декодере.

Варианты осуществления согласно изобретению разрешают определенную дилемму качества в широкополосных кодеках, которая может наблюдаться на скоростях передачи битов в 9-13 Кбит/с. Обнаружено, что, с одной стороны, такие скорости уже являются слишком низкими для того, чтобы оправдывать передачу даже средних объемов данных расширения полосы пропускания, что исключает обычные системы направляемого расширения полосы пропускания с 1 Кбит/с или более из вспомогательной информации. С другой стороны, обнаружено, что осуществимое расширение полосы пропускания вслепую, как выявлено, звучит значительно хуже по меньшей мере для некоторых типов речи или музыкального материала вследствие неспособности надлежащего прогнозирования параметра из базового сигнала. Обнаружено, что в силу этого желательно сокращать скорость передачи вспомогательной информации схемы направляемого расширения полосы пропускания до уровня гораздо ниже 1 Кбит/с, что обеспечивает возможность ее приспособления даже при кодировании с очень низкой скоростью передачи битов. Подход, который используется в вариантах осуществления согласно изобретению, заключается в том, чтобы идентифицировать сегменты обычных входных сигналов, которые плохо или субоптимально восстановлены посредством расширения полосы пропускания вслепую, и передавать только для этих сегментов вспомогательную информацию, необходимую для того, чтобы повышать качество высокочастотного восстановления до допустимого уровня (или по меньшей мере до уровня, который находится в диапазоне среднего качества расширения полосы пропускания вслепую для этого сигнала). Другими словами, части высокочастотного входного сигнала, которые воссоздаются достаточно хорошо посредством расширения полосы пропускания вслепую, должны кодироваться с очень небольшим объемом или вообще без вспомогательной информацией расширения полосы пропускания, и только пассажи, в которых расширение полосы пропускания вслепую ухудшает общее впечатление от качества кодека, должны иметь высокочастотные компоненты, воспроизводимые посредством направляемого расширения полосы пропускания. Такая схема расширения полосы пропускания, которая регулирует скорость передачи вспомогательной информации сигнально-адаптивным способом, является предметом настоящего изобретения и называется «минимально направляемым расширением полосы пропускания».

Варианты осуществления согласно изобретению превосходят несколько подходов к расширению полосы пропускания, которые приведены в соответствующей литературе в последние годы (см., например, источники [1], [2], [3], [4], [5], [6], [7], [8], [9] и [10]). В общем, все они являются либо полностью вслепую, либо полностью направляемыми в данной рабочей точке, независимо от мгновенных характеристик входного сигнала. Кроме того, все реализации расширений полосы пропускания вслепую (см., например, ссылочные материалы [1], [3], [4], [5], [9] и[10]) оптимизированы исключительно для речевых сигналов, и по сути, маловероятно, что они обеспечивают удовлетворительное качество для другого ввода, такого как музыка (что даже отмечается в некоторых публикациях). В завершение, большинство традиционных реализаций расширения полосы пропускания являются относительно сложными в силу использования преобразований Фурье, вычислений LPC-фильтра или векторного квантования вспомогательной информации. Это может приводить к недостатку при приспособлении новой технологии кодирования на рынках мобильной связи с учетом того, что большинство мобильных устройств обеспечивают очень ограниченную вычислительную мощность.

В качестве еще одного вывода, варианты осуществления согласно изобретению создают аудиокодер или способ для кодирования аудио либо соответствующую компьютерную программу, как описано выше.

Дополнительные варианты осуществления согласно изобретению создают аудиодекодер или способ декодирования аудио либо соответствующую компьютерную программу, как описано выше.

Дополнительные варианты осуществления согласно изобретению создают кодированный аудиосигнал или носитель хранения данных, имеющий сохраненный кодированный аудиосигнал, как описано выше.

9. Альтернативные варианты реализации

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

Изобретаемый кодированный аудиосигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными обычно является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Устройство, описанное в данном документе, может реализовываться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

[1] B. Bessette et al. "The Adaptive Multi-rate Wideband Speech Codec (AMR-WB)", IEEE Trans. on Speech and Audio Processing, издание 10, номер 8, ноябрь 2002 года.

[2] B. Geiser et al. "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Trans. on Audio, Speech and Language Processing, издание 15, номер 8, ноябрь 2007 года.

[3] B. Iser, W. Minker и G. Schmidt "Bandwidth Extension of Speech Signals", Springer Lecture Notes in Electrical Engineering, издание 13, Нью-Йорк, 2008 год.

[4] M. Jelínek и R. Salami "Wideband Speech Coding Advances in VMR-WB Standard", IEEE Trans. on Audio, Speech and Language Processing, издание 15, номер 4, май 2007 года.

[5] I. Katsir, I. Cohen и D. Malah "Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation", in Proc. EUSIPCO 2011, Барселона, Испания, сентябрь 2011 года.

[6] E. Larsen и R. M. Aarts "Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design", Wiley, Нью-Йорк, 2004 год.

[7] J. Mäkinen et al. "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services", in Proc. ICASSP 2005, Филадельфия, США, март 2005 года.

[8] M. Neuendorf et al. "MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", in Proc. 132nd AES Convention, Будапешт, Венгрия, апрель 2012 года. Также содержится в Journal of the AES, 2013 год.

[9] H. Pulakka и P. Alku "Bandwidth Extension of Telephone Speech Using the Neural Network and the Filter Bank Implementation for Highband Mel Spectrum", IEEE Trans. on Audio, Speech and Language Processing, издание 19, номер 7, сентябрь 2011 года.

[10] T. Vaillancourt et al. "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels", in Proc. EUSIPCO 2008, Лозанна, Швейцария, август 2008 года.

[11] L. Miao et al. "G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs", in Proc. ICASSP 2011, Прага, Чешская Республика, май 2011 года.

1. Аудиокодер (100; 200) для обеспечения кодированной аудиоинформации (112; 212) на основании входной аудиоинформации (110; 210), причем аудиокодер содержит:

- низкочастотный кодер (120; 220), выполненный с возможностью кодирования низкочастотной части входной аудиоинформации для получения кодированного представления (122; 222) низкочастотной части; и

- блок (130; 230) обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации (132; 232) расширения полосы пропускания на основании входной аудиоинформации;

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом;

- при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью; и

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.

2. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую; и

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.

3. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации в зависимости от того, являются ли части неподвижными во времени частями, и в зависимости от того, имеют ли части низкочастотный характер; и

- при этом аудиокодер выполнен с возможностью избирательного исключения включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором в качестве неподвижных во времени частей, имеющих низкочастотный характер.

4. Аудиокодер (100; 200) по п. 3, в котором детектор выполнен с возможностью идентификации частей входной аудиоинформации в зависимости от того, содержат ли части вокализованную речь, и/или в зависимости от того, содержат ли части шум окружающей среды, и/или в зависимости от того, содержат ли части музыку без ударных инструментов.

5. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равна ли разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности; и

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.

6. Аудиокодер (100; 200) по п. 5, в котором детектор выполнен с возможностью идентификации частей в зависимости от того, содержат ли части невокализованную речь, и/или в котором детектор выполнен с возможностью идентификации частей в зависимости от того, содержат ли части звуки ударных инструментов.

7. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью определения спектрального наклона частей входной аудиоинформации и идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равен ли определенный спектральный наклон фиксированному или переменному пороговому значению наклона; и

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.

8. Аудиокодер (100; 200) по п. 7, в котором детектор дополнительно выполнен с возможностью определять частоту переходов через нуль частей входной аудиоинформации и идентифицировать части входной аудиоинформации также в зависимости от того, превышает ли или равна ли определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль, либо в зависимости от того, содержит ли частота переходов через нуль временное изменение, которое превышает пороговое значение изменения частоты переходов через нуль.

9. Аудиокодер (100; 200) по п. 2, в котором детектор (240) выполнен с возможностью применения гистерезиса для идентификации частей сигнала входной аудиоинформации для сокращения числа переходов между идентифицированными частями сигнала и неидентифицированными частями сигнала.

10. Аудиокодер (100; 200) по п. 1, при этом аудиокодер выполнен с возможностью избирательного включения параметров, представляющих спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания.

11. Аудиокодер (100; 200) по п. 1, в котором низкочастотный кодер выполнен с возможностью кодирования низкочастотной части входной аудиоинформации, содержащей частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц, и

- при этом аудиокодер выполнен с возможностью избирательного включения в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц.

12. Аудиокодер (100; 200) по п. 11, при этом аудиокодер выполнен с возможностью избирательного включения в кодированное аудиопредставление 4 скалярно квантованных параметров, описывающих интенсивность четырех высокочастотных частей сигнала, причем высокочастотные части сигнала покрывают частотные диапазоны выше низкочастотной части.

13. Аудиокодер (100; 200) по п. 11, при этом аудиокодер выполнен с возможностью избирательного включения в кодированное аудиопредставление множества параметров, описывающих взаимосвязь между энергиями или интенсивностями спектрально смежных частотных частей, при этом один из параметров описывает отношение или разность между энергией или интенсивностью первой высокочастотной части и низкочастотной части расширения полосы пропускания, и при этом другие из параметров описывают отношения или разности между энергиями или интенсивностями других высокочастотных частей расширения полосы пропускания.

14. Аудиодекодер (400; 500) для обеспечения декодированной аудиоинформации (412; 512) на основании кодированной аудиоинформации (410; 510), причем аудиодекодер содержит:

- низкочастотный декодер (420; 520), выполненный с возможностью декодирования кодированного представления низкочастотной части для получения декодированного представления (422; 522) низкочастотной части; и

- расширение (430; 530) полосы пропускания, выполненное с возможностью получения сигнала (432; 532) расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получения сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;

- при этом аудиодекодер выполнен с возможностью определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания.

15. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью определения, следует ли получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе.

16. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью переключения между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента.

17. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью оценки флагов, включенных в кодированную аудиоинформацию для различных частей аудиоконтента, для определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания.

18. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части.

19. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании коэффициентов линейного прогнозирования и/или на основании статистики во временной области декодированного представления низкочастотной части.

20. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью получения сигнала расширения полосы пропускания с использованием одного или более свойств декодированного представления низкочастотной части и/или с использованием одного или более параметров низкочастотного декодера для временных частей входного аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию.

21. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью получения сигнала расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием наклонной информации, и/или с использованием коэффициентов фильтрации для временных частей входного аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию.

22. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью получения сигнала расширения полосы пропускания с использованием параметров потока битов, описывающего спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.

23. Аудиодекодер (400; 500) по п. 22, в котором расширение полосы пропускания выполнено с возможностью оценки от трех до пяти параметров потока битов, описывающего интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, для получения сигнала расширения полосы пропускания.

24. Аудиодекодер (400; 500) по п. 23, в котором от трех до пяти параметров потока битов, описывающего интенсивность высокочастотных частей сигнала, скалярно квантуются с разрешением в 2 или 3 бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на аудиокадр.

25. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью осуществления сглаживания энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую.

26. Аудиодекодер (400; 500) по п. 25, в котором расширение полосы пропускания выполнено с возможностью гашения высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую; и

- при этом расширение полосы пропускания выполнено с возможностью уменьшения гашения или повышения уровня для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания.

27. Способ (600) обеспечения кодированной аудиоинформации на основании входной аудиоинформации, при этом способ содержит этапы, на которых:

- кодируют (610) низкочастотную часть входной аудиоинформации для получения кодированного представления низкочастотной части; и

- обеспечивают (620) информацию расширения полосы пропускания на основании входной аудиоинформации;

- при этом информация расширения полосы пропускания избирательно включается в кодированную аудиоинформацию сигнально-адаптивным способом;

- при этом способ содержит этап, на котором идентифицируют части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью; и

- при этом способ содержит этап, на котором избирательно включают информацию расширения полосы пропускания в кодированную аудиоинформацию для идентифицированных частей входной аудиоинформации.

28. Способ (700) обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации, при этом способ содержит этапы, на которых:

- декодируют (710) кодированное представление низкочастотной части для получения декодированного представления низкочастотной части; и

- получают (720) сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и

- получают (730) сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;

- при этом способ содержит этап, на котором определяют, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания.

29. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 27, когда компьютерная программа выполняется на компьютере.

30. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 28, когда компьютерная программа выполняется на компьютере.

31. Аудиокодер (100; 200) для обеспечения кодированной аудиоинформации (112; 212) на основании входной аудиоинформации (110; 210), причем аудиокодер содержит:

- низкочастотный кодер (120; 220), выполненный с возможностью кодирования низкочастотной части входной аудиоинформации для получения кодированного представления (122; 222) низкочастотной части; и

- блок (130; 230) обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации (132; 232) расширения полосы пропускания на основании входной аудиоинформации;

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом;

- при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равна ли разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности; и

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.

32. Аудиокодер (100; 200) для обеспечения кодированной аудиоинформации (112; 212) на основании входной аудиоинформации (110; 210), причем аудиокодер содержит:

- низкочастотный кодер (120; 220), выполненный с возможностью кодирования низкочастотной части входной аудиоинформации для получения кодированного представления (122; 222) низкочастотной части; и

- блок (130; 230) обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации (132; 232) расширения полосы пропускания на основании входной аудиоинформации;

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом;

- при этом аудиокодер содержит детектор (240), выполненный с возможностью определения спектрального наклона частей входной аудиоинформации и идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равен ли определенный спектральный наклон фиксированному или переменному пороговому значению наклона; и

- при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.

33. Аудиодекодер (400; 500) для обеспечения декодированной аудиоинформации (412; 512) на основании кодированной аудиоинформации (410; 510), причем аудиодекодер содержит:

- низкочастотный декодер (420; 520), выполненный с возможностью декодирования кодированного представления низкочастотной части для получения декодированного представления (422; 522) низкочастотной части; и

- расширение (430; 530) полосы пропускания, выполненное с возможностью получения сигнала (432; 532) расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получения сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;

- при этом расширение полосы пропускания выполнено с возможностью осуществления сглаживания энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую;

- при этом расширение полосы пропускания выполнено с возможностью гашения высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую; и

- при этом расширение полосы пропускания выполнено с возможностью уменьшения гашения или повышения уровня для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания.

34. Способ (600) обеспечения кодированной аудиоинформации на основании входной аудиоинформации, при этом способ содержит этапы, на которых:

- кодируют (610) низкочастотную часть входной аудиоинформации для получения кодированного представления низкочастотной части; и

- обеспечивают (620) информацию расширения полосы пропускания на основании входной аудиоинформации;

- при этом информация расширения полосы пропускания избирательно включается в кодированную аудиоинформацию сигнально-адаптивным способом;

- при этом способ содержит этап, на котором идентифицируют части входной аудиоинформации в зависимости от того, превышает ли или равна ли разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности; и

- при этом способ содержит этап, на котором избирательно включают информацию расширения полосы пропускания в кодированную аудиоинформацию для идентифицированных частей входной аудиоинформации.

35. Способ (600) обеспечения кодированной аудиоинформации на основании входной аудиоинформации, при этом способ содержит этапы, на которых:

- кодируют (610) низкочастотную часть входной аудиоинформации для получения кодированного представления низкочастотной части; и

- обеспечивают (620) информацию расширения полосы пропускания на основании входной аудиоинформации;

- при этом информация расширения полосы пропускания избирательно включается в кодированную аудиоинформацию сигнально-адаптивным способом;

- при этом способ содержит этап, на котором определяют спектральный наклон частей входной аудиоинформации и идентифицируют части входной аудиоинформации в зависимости от того, превышает ли или равен ли определенный спектральный наклон фиксированному или переменному пороговому значению наклона; и

- при этом способ содержит этап, на котором избирательно включают информацию расширения полосы пропускания в кодированную аудиоинформацию для идентифицированных частей входной аудиоинформации.

36. Способ (700) обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации, при этом способ содержит этапы, на которых:

- декодируют (710) кодированное представление низкочастотной части для получения декодированного представления низкочастотной части; и

- получают (720) сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и

- получают (730) сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;

- при этом способ содержит этап, на котором выполняют сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую;

- при этом способ содержит этап, на котором гасят высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую; и

- при этом способ содержит этап, на котором уменьшают гашение или повышают уровень для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания.

37. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 34 или 35, когда компьютерная программа выполняется на компьютере.

38. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 36, когда компьютерная программа выполняется на компьютере.



 

Похожие патенты:

Изобретение относится к области многоканального звукового кодирования. Техническим результатом является декодирование кодированного битового аудиопотока в системе обработки звуковых сигналов.

Изобретение относится к средствам для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к области техники обработки речи, в частности к адаптивному расширению полосы пропускания. Технический результат – обеспечение формирования расширенной полосы пропускания частот в декодере.

Изобретение относится к средствам для маскирования ошибок при кодировании/декодировании аудио. Технический результат заключается в восстановлении качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио.

Изобретение относится к области акустического анализа. Технический результат – обеспечение захвата рассеянного звука, поступающего на микрофонный массив со всех направлений, путем получения лучшей диаграммы направленности фильтра рассеянного звука.

Настоящее изобретение относится к системе звукового кодирования и декодирования. Технический результат заключается в повышении гибкости в отношении допущения разных скоростей передачи данных и разных уровней искажений.

Изобретение относится к области обработки и декодирования аудио сигнала, содержащего переходные процессы. Технический результат заключается в повышении скорости передачи данных за счет различной обработки сигнала переходного процесса и сигнала, не содержащего переходный процесс.

Изобретение относится к области кодирования аудиосигналов и предназначено для преобразования первого и второго входных каналов в один выходной канал, и в частности, предназначено для использования при преобразовании формата между различными конфигурациями каналов громкоговорителей.

Изобретение относится к средствам для декодирования кодированного аудиосигнала. Технический результат заключается в обеспечении возможности кодирования аудиосигналов в широком диапазоне скоростей передачи битов.

Изобретение относится к средствам для гибридного усиления речи. Технический результат заключается в повышении слышимости речевого содержимого звукового сигнала относительно неречевого звукового содержимого.

Изобретение относится к области кодирования и декодирования звуковых сигналов. Технический результат – повышение точности восстановления звуковых сигналов. Система кодирования кодирует множественные звуковые сигналы (X) в виде сигнала (Y) понижающего микширования вместе с коэффициентами (P, C) управляемого и прямого повышающего микширования. В системе декодирования блок предварительного умножения вычисляет промежуточный сигнал (W) путем линейного отображения сигнала понижающего микширования в соответствии с первым набором коэффициентов (Q); декорреляционная секция выдает декоррелированный сигнал (Z) на основании промежуточного сигнала; секция управляемого повышающего микширования вычисляет сигнал управляемого повышающего микширования; секция прямого повышающего микширования вычисляет сигнал прямого повышающего микширования; секция суммирования предоставляет многомерный восстановленный сигнал () путем суммирования сигналов управляемого и прямого повышающего микширования; и преобразователь вычисляет первый набор коэффициентов, основываясь на коэффициентах управляемого и прямого повышающего микширования, и подает его на блок предварительного умножения. 5 н. и 13 з.п. ф-лы, 4 ил.

Настоящее изобретение раскрывает средства для обработки аудиоданных и относится к области техники связи. Технический результат заключается в уменьшении полосы пропускания и повышении качества кодирования аудиоданных. Получают шумовой кадр аудиосигнала. Раскладывают текущий шумовой кадр на шумовой сигнал полосы низких частот и шумовой сигнал полосы высоких частот. Кодируют и передают шумовой сигнал полосы низких частот посредством использования первого механизма прерывистой передачи. Кодируют и передают шумовой сигнал полосы высоких частот посредством использования второго механизма прерывистой передачи. 4 н. и 22 з.п. ф-лы, 9 ил.

Изобретение относится к области кодирования и декодирования аудио сигналов. Технический результат – повышение качества кодирования и декодирования аудио сигналов и исключение потери битов. Способ включает в себя: определение общего количества битов, которые должны быть выделены, соответствующих подполосам частот текущего кадра; выделение первичных битов для подполос частот согласно общему количеству битов; определение количества первичных информационных единиц для каждой подполосы частот, которая подвергнута выделению первичных битов, для получения общего количества избыточных битов текущего кадра и количества информационных единиц, соответствующих каждой подполосе частот; выбор подполосы частот для выделения вторичных битов из подполос частот, согласно параметру выделения вторичных битов, содержащему одно из общего количества избыточных битов или характеристики подполосы частот для каждой подполосы частот; выделение вторичных битов для подполос частот для выделения избыточных битов и получения количества вторично выделенных битов для каждой подполосы частот; и определение количества вторичных информационных единиц для каждой подполосы частот для того, чтобы повторно получать количество информационных единиц, соответствующих каждой подполосе частот из подполос частот для выделения вторичных битов. 2 н. и 18 з.п. ф-лы, 14 ил.

Изобретение относится к кодированию аудио и, в частности, к пространственному кодированию аудиообъектов. Технический результат заключается в повышении эффективности сжатия при высоком качестве звука. Технический результат достигается за счет аудиокодера для кодирования входных аудиоданных, который, чтобы получать выходные аудиоданные, содержит входной интерфейс для приема множества аудиоканалов, множества аудиообъектов и метаданных, связанных с одним или более из множества аудиообъектов; микшер для сведения множества объектов и множества каналов таким образом, чтобы получать множество предварительно сведенных каналов, причем каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта; базовый кодер для базового кодирования входных данных базового кодера; и модуль сжатия метаданных для сжатия метаданных, связанных с одним или более из множества аудиообъектов. 5 н. и 19 з.п. ф-лы, 11 ил.

Изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных. Технический результат – обеспечение идентичности поздней реверберации импульсной характеристики помещения результату свертки аудиосигнала с полной импульсной характеристикой. В данном способе обработки аудиосигнала согласно импульсной характеристике помещения аудиосигнал обрабатывают с использованием ранней части импульсной характеристики помещения отдельно от поздней реверберации импульсной характеристики помещения, причем обработка поздней реверберации содержит формирование масштабированного реверберирующего сигнала, причем масштабирование зависит от аудиосигнала. Обработанную раннюю часть аудиосигнала и масштабированный реверберирующий сигнал объединяют. 6 н. и 13 з.п. ф-лы, 10 ил., 2 табл.

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в возможности разделения рассеянных и нерассеянных частей N входных звуковых сигналов. Повышающий микшер может быть выполнен с возможностью обнаружения случаев переходных состояний звукового сигнала. В случаях переходных состояний звукового сигнала повышающий микшер может быть выполнен с возможностью добавления сигнально-адаптивного управления к процессу расширения рассеянного сигнала, при котором выводятся M звуковых сигналов. Повышающий микшер может изменять процесс расширения рассеянного сигнала с течением времени таким образом, что в случаях переходных состояний звукового сигнала рассеянные части звуковых сигналов могут быть распределены главным образом только на выходные каналы, пространственно близкие к входным каналам. В случаях непереходных состояний звукового сигнала рассеянные части звуковых сигналов могут распределяться по существу равномерным образом. 3 н. и 39 з.п. ф-лы, 12 ил.

Изобретение относится к акустике, в частности, к устройствам для декодирования аудиосигналов. Аудиодекодер содержит модуль декодирования базовой полосы, модуль расширения полосы частот и средство комбинирования аудиосигнала базовой полосы и аудиосигнала расширения полосы частот. Модуль расширения полосы частот содержит модуль регулирования энергии, сконфигурированный таким образом, что в текущем аудиокадре, в котором происходит потеря аудиокадра, отрегулированная энергия сигнала для текущего аудиокадра для по меньшей мере одной полосы частот устанавливается на основе текущего коэффициента усиления для текущего аудиокадра. Текущий коэффициент усиления вычисляется на основе коэффициента усиления, взятого из предыдущего аудиокадра или из битового потока, и на основе оцененной энергии сигнала. Оцененная энергия сигнала вычисляется из спектра текущего аудиокадра аудиосигнала базовой полосы. Модуль расширения полосы частот содержит модуль задания коэффициента усиления. Модуль расширения частот содержит генератор шума и модуль синтеза сигналов. Технический результат – компенсация ошибок декодирования. 3 н. и 12 з.п. ф-лы, 5 ил.

Изобретение относится к кодированию и декодированию аудиоречи. Технический результат – повышение эффективности кодирования и декодирования аудиоречи и повышение качества звука. Устройства кодирования и декодирования содержат блок идентификации диапазонов доминантных частот, который идентифицирует диапазон доминантной частоты, имеющий значение коэффициента нормы, то есть максимальное значение в пределах спектра входного сигнала аудио/голоса, а также блоки определения доминантных групп и блок определения недоминантных групп, которые группируют все поддиапазоны в доминантную группу, которая содержит диапазон доминантной частоты, и недоминантную группу, которая содержит диапазон недоминантной частоты, блок распределения битов группам, который распределяет биты каждой группе на основе энергии и дисперсии нормы каждой группы, и блок распределения битов поддиапазонам, который перераспределяет биты, которые были распределены каждой группе, каждому поддиапазону в соответствии с отношением нормы к энергии групп. 4 н. и 4 з.п. ф-лы, 11 ил.

Изобретение относится к средствам для регулировки усиления. Технический результат заключается в повышении точности восстановления сигнала в приемном устройстве и уменьшении слышимых артефактов. Способ обработки сигнала включает в себя определение минимального разнесения между парами спектральных линий (LSP) для пар LSP полосы высоких частот кадра принятого аудиосигнала. На основе минимального разнесения между LSP определяют, что часть полосы высоких частот принятого аудиосигнала включает в себя компонент, соответствующий условию формирования артефактов. Причем принятый аудиосигнал определяют как включающий в себя упомянутый компонент по меньшей мере частично в ответ на то, что минимальное разнесение между LSP удовлетворяет пороговому значению. В ответ на определение того, что часть полосы высоких частот принятого аудиосигнала включает в себя упомянутый компонент, регулируют параметр усиления полосы высоких частот, соответствующий части полосы высоких частот принятого аудиосигнала. Формируют выходной поток битов, причем выходной поток битов формируют на основе отрегулированного параметра усиления полосы высоких частот. 5 н. и 32 з.п. ф-лы, 6 ил.

Изобретение относится к средствам аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования аудиоданных. Способ кодирования вектора параметров в системе кодирования аудио, причем каждый параметр соответствует апериодической величине, вектор имеет первый элемент и по меньшей мере один второй элемент. Представляют каждый параметр в векторе посредством значения индекса, которое может принимать N значений. Ассоциируют каждый из одного второго элемента с символом, причем символ вычисляется посредством следующих этапов, на которых: вычисляют разность между значением индекса второго элемента и значением индекса его предыдущего элемента в векторе; применяют операцию по модулю N к разности; кодируют каждый по меньшей мере из одного второго элемента посредством энтропийного кодирования символа, ассоциированного по меньшей мере с одним вторым элементом на основе таблицы вероятностей, содержащей вероятности символов. 11 н. и 14 з.п. ф-лы, 15 ил.
Наверх