Гибридное кодирование многоканального звука



Гибридное кодирование многоканального звука
Гибридное кодирование многоканального звука
Гибридное кодирование многоканального звука
Гибридное кодирование многоканального звука
Гибридное кодирование многоканального звука

 


Владельцы патента RU 2581782:

ДОЛБИ ЛАБОРАТОРИС ЛАЙСЭНЗИН КОРПОРЕЙШН (US)
ДОЛБИ ИНТЕРНЕШНЛ АБ (NL)

Изобретение относится к средствам кодирования и декодирования многоканального звукового сигнала. Технический результат заключается в повышении качества кодированного сигнала. Способ кодирования многоканального входного звукового сигнала включает этапы формирования понижающего микширования низкочастотных составляющих подмножества каналов входного сигнала, кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым подвергнутые понижающему микшированию данные с кодированной формой сигнала, выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные, и формирования кодированного звукового сигнала (например, кодированного сигнала в формате E-AC-3), указывающего на подвергнутые понижающему микшированию данные с кодированной формой сигнала и параметрически кодированные данные. Другие аспекты представляют собой способы декодирования такого кодированного сигнала и системы, выполненные с возможностью выполнения любого варианта осуществления способа согласно изобретению. 4 н. и 26 з.п. ф-лы, 4 ил., 1 табл.

 

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Это заявка испрашивает приоритет согласно предварительной заявке на патент США № 61/817729, поданной 30 апреля 2013, которая в полном объеме включена в данную заявку посредством ссылки.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

1. ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к обработке звуковых сигналов, а более конкретно к кодированию многоканального звука (например, кодированию данных, указывающих на многоканальный звуковой сигнал) и декодированию. В типовых вариантах осуществления понижающее микширование низкочастотных составляющих отдельных каналов многоканального входного звукового сигнала подвергается кодированию формы сигнала, а другие частотные составляющие (с более высокой частотой) входного звукового сигнала подвергаются параметрическому кодированию. Некоторые варианты осуществления кодируют многоканальные аудиоданные в соответствии с одним из форматов, известных как AC-3 и Е-AC-3 (Enhanced AC-3), или в соответствии с другим форматом кодирования.

2. ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

Dolby Laboratories предлагает запатентованные воплощения АС-3 и E-AC-3, известные как Dolby Digital и Dolby Digital Plus соответственно. Dolby, Dolby Digital и Dolby Digital Plus являются торговыми марками Dolby Laboratories Licensing Corporation.

Несмотря на то что изобретение не ограничивается использованием для кодирования аудиоданных в соответствии с форматом E-AC-3 (или AC-3), для удобства оно будет описано в вариантах осуществления, в которых оно кодирует звуковой битовый поток в соответствии с форматом Е-AC-3.

Кодированный битовый поток в формате AC-3 или Е-AC-3 содержит метаданные и может содержать от одного до шести каналов звукового содержимого. Звуковое содержимое - это аудиоданные, которые были сжаты с использованием перцепционного звукового кодирования. Подробная информация об AC-3 кодировании хорошо известна и изложена во многих опубликованных источниках, включая следующие:

ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 августа 2001;

Патенты США № 5583962; 5632005; 5633981; 5727119 и 6021386.

Подробная информация о кодировании Dolby Digital Plus (E-AC-3) изложена, например, в "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System," AES Convention Paper 6196, 117th AES Convention, 28 октября 2004.

Каждый фрейм кодированного звукового битового потока формата AC-3 содержит звуковое содержимое и метаданные для 1536 сэмплов цифровой звукозаписи. Это представляет 32 миллисекунды цифровой звукозаписи или скорость звукозаписи 31,25 фреймов в секунду для частоты выборки 48 кГц.

Каждый фрейм кодированного звукового битового потока формата E-AC-3 содержит звуковое содержимое и метаданные для 256, 512, 768 или 1536 сэмплов цифровой звукозаписи в зависимости от того, содержит ли фрейм один, два, три или шесть блоков аудиоданных соответственно.

Кодирование звукового содержимого, осуществляемое посредством типовых реализаций Е-AC-3 кодирования, включает кодирование формы сигнала и параметрическое кодирование.

Кодирование формы входного звукового сигнала (как правило, выполняется для сжатия сигнала таким образом, чтобы кодированный сигнал содержал меньше битов, чем входной сигнал) кодирует входной сигнал таким образом, что он, насколько это возможно, сохраняет форму входного сигнала при выполнении наложенных ограничений (например, таким образом, чтобы форма кодированного сигнала совпадала с формой входного сигнала, насколько это возможно). Например, при общепринятом E-AC-3 кодировании кодирование формы сигнала выполняется на низкочастотных составляющих (обычно до 3,5 кГц или 4,6 кГц) каждого канала многоканального входного сигнала для сжатия такого низкочастотного содержимого входного сигнала посредством формирования (в частотной области) разбитого на подгруппы представления (разбитых на подгруппы мантиссы и порядка) каждого сэмпла (который является частотной составляющей) каждого низкочастотного диапазона каждого канала входного сигнала.

Более конкретно, типовые реализации E-AC-3 кодеров (и некоторых других общепринятых аудиокодеров) реализуют психоакустическую модель для анализа данных в частотной области, указывающих на входной сигнал на основе группирования (т.е., как правило, 50 неоднородных диапазонов, аппроксимирующих частотные диапазоны хорошо известной психоакустической шкалы, известной как барк-шкала), чтобы определить оптимальное распределение битов для каждой мантиссы. Чтобы выполнить кодирование формы сигнала на низкочастотных составляющих входного сигнала, данные мантиссы (указывающие на низкочастотное содержимое) разбиваются на подгруппы с числом битов, соответствующих определенному распределению битов. Разбитые на подгруппы данные мантиссы (и соответствующие данные порядка, а также, как правило, соответствующие метаданные) затем форматируются в кодированный выходной битовый поток.

Параметрическое кодирование, другой известный тип кодирования звукового сигнала, извлекает и кодирует отличительные параметры входного звукового сигнала, в результате чего восстановленный сигнал (после кодирования и последующего декодирования) имеет как можно большую разборчивость (в зависимости от наложенных ограничений), но при этом форма кодированного сигнала может сильно отличаться от формы входного сигнала.

Например, в публикации международной заявки PCT № WO 03/083834 A1, опубликованной 9 октября 2003 года, и публикации международной заявки PCT № WO 2004/102532 A1, опубликованной 25 ноября 2004 года, описывают тип параметрического кодирования, известный как кодирование спектрального расширения. При кодировании спектрального расширения частотные составляющие входного звукового сигнала всего диапазона частот кодируются в виде последовательности частотных составляющих сигнала с ограниченным диапазоном частот (сигнала основной полосы частот), а также соответствующей последовательности кодирующих параметров (указывающих на разностный сигнал), которые определяют (с сигналом основной полосы частот) приближенную версию входного сигнала во всем диапазоне частот.

Другим хорошо известным типом параметрического кодирования является кодирование взаимосвязи каналов. При кодировании взаимосвязи каналов проводится монофоническое понижающее микширование каналов входного звукового сигнала. Входной сигнал кодируется как понижающее микширование (последовательности частотных составляющих) и соответствующая последовательность параметров взаимосвязи. Параметры взаимосвязи представляют собой параметры уровня, которые определяют (с понижающим микшированием) приближенную версию каждого из каналов входного сигнала. Параметры взаимосвязи представляют собой метаданные, сгруппированные по частотам, которые согласовывают энергию монофонического понижающего микширования с энергией каждого канала входного сигнала.

Например, общепринятое E-AC-3 кодирование 5.1-канального входного сигнала (с доступной битовой скоростью передачи данных 192 кбит/с для передачи кодированного сигнала), как правило, реализует кодирование взаимосвязи каналов для кодирования промежуточных частотных составляющих (в диапазоне F1 < f ≤ F2, где F1, как правило, равна 3,5 кГц или 4,6 кГц, а F2, как правило, равна 10 кГц или 10,2 кГц) каждого канала входного сигнала, и кодирование спектрального расширения для кодирования высокочастотных составляющих (в диапазоне F2 < f ≤ F3, где F2, как правило, равна 10 кГц или 10,2 кГц, а F3, как правило, равна 14,8 кГц или 16 кГц) каждого канала входного сигнала. Монофоническое понижающее микширование, определяемое во время выполнения кодирования взаимосвязи каналов, является понижающим микшированием с кодированной формой сигнала, и понижающее микширование с кодированной формой сигнала передается (в кодированном выходном сигнале) вместе с параметрами взаимосвязи. Понижающее микширование, определяемое при выполнении кодирования взаимосвязи каналов, используется в качестве сигнала основной полосы частот для кодирования спектрального расширения. Кодирование спектрального расширения определяет (из сигнала основной полосы частот и высокочастотных составляющих каждого канала входного сигнала) другое множество кодирующих параметров (SPX параметров). SPX параметры включены в и передаются с кодированным выходным сигналом.

В другом типе параметрического кодирования, иногда называемом кодированием пространственного звучания, формируется понижающее микширование (например, монофоническое или стереофоническое понижающее микширование) каналов многоканального входного звукового сигнала. Входной сигнал кодируется в виде выходного сигнала, включая такое понижающее микширование (последовательность частотных составляющих) и соответствующую последовательность пространственных параметров (или в виде версии с кодированной формой сигнала каждого канала понижающего микширования с соответствующей последовательностью пространственных параметров). Пространственные параметры обеспечивают возможность восстановления как огибающей амплитуды каждого канала входного звукового сигнала, так и межканальных корреляций между каналами входного звукового сигнала из понижающего микширования входного сигнала. Данный тип параметрического кодирования может выполняться на всех частотных составляющих входного сигнала (т.е. во всем диапазоне частот входного сигнала), а не только на частотных составляющих в поддиапазоне всего диапазона частот входного сигнала (т.е. таким образом, что кодированная версия входного сигнала включает понижающее микширование и пространственные параметры для всех частот полного диапазона частот входного сигнала, а не только для их подмножества).

При E-AC-3 или AC-3 кодировании звуковой битовый поток, блоки сэмплов входного звукового сигнала, которые должны кодироваться, подвергаются преобразованию из временной области в частотную, в результате чего блоки данных в частотной области, обычно называемые коэффициентами преобразования (или частотными коэффициентами, или частотными составляющими), располагаются в равномерно разнесенных элементах разрешения по частоте. Затем частотный коэффициент в каждом элементе разрешения преобразуется (например, в звене 7 BFPE системы на фиг. 1) в формат с плавающей запятой, содержащий порядок и мантиссу.

Как правило, присваивание битов мантиссы основывается на разности между детальным спектром сигнала (представленным значением спектральной плотности мощности ("PSD") для каждого элемента разрешения по частоте) и грубой кривой маскировки (представленной значением маскировки для каждого диапазона частот).

На фиг. 1 приведен кодер, выполненный с возможностью осуществления общепринятого E-AC-3 кодирования входных аудиоданных 1 во временной области. Набор 2 анализирующих фильтров кодера преобразует входные аудиоданные 1 во временной области в аудиоданные 3 в частотной области, и звено 7 блочного кодирования c плавающей запятой (BFPE) формирует представление с плавающей запятой каждой частотной составляющей данных 3, содержащее порядок и мантиссу для каждого элемента разрешения по частоте. Выходные данные в частотной области звена 7 иногда также будут упоминаться в данной заявке как аудиоданные 3 в частотной области. Затем выходные аудиоданные в частотной области звена 7 кодируются, в том числе путем выполнения кодирования формы сигнала (в элементах 4, 6, 10 и 11 системы на фиг. 1) на низкочастотных составляющих (с частотой, которая меньше или равна "F1", где F1, как правило, равна 3,5 кГц или 4,6 кГц) выходных данных в частотной области звена 7, и путем выполнения параметрического кодирования (в звене 12 параметрического кодирования) на других частотных составляющих (тех, которые имеют частоту выше чем F1) выходных данных в частотной области звена 7.

Кодирование формы сигнала включает разбиение на подгруппы мантисс (низкочастотных составляющих, выводимых из звена 7) в квантователе 6, включение порядков (низкочастотных составляющих, выводимых из звена 7) в звене 10 включения и кодирование (в звене 11 кодирования порядка) включенных порядков, формируемых в звене 10. Форматер 8 формирует кодированный битовый поток 9 в формате E-AC-3 в ответ на разбитые на подгруппы данные, выводимые из квантователя 6, кодированные данные дифференциального порядка, выводимые из звена 11, и параметрически кодированные данные, выводимые из звена 12.

Квантователь 6 выполняет распределение битов и разбиение на подгруппы на основе данных управления (в том числе данных маскировки), формируемых контроллером 4. Данные маскировки (определяемые кривой маскировки) формируются из данных 3 в частотной области на основе психоакустической модели (реализуемой контроллером 4) человеческого слуха и слухового восприятия. Психоакустическое моделирование учитывает частотно-зависимые пороги человеческого слуха и психоакустическое явление, называемое маскировкой, в соответствии с которым сильная частотная составляющая, близкая к одной или нескольким более слабым частотным составляющим, имеет свойство маскировать более слабые составляющие, что делает их неслышимыми для человека. Это дает возможность исключить более слабые частотные составляющие при кодировании аудиоданных и тем самым достичь более высокой степени сжатия без отрицательного влияния на воспринимаемое качество кодированных аудиоданных (битового потока 9). Данные маскировки содержат значение кривой маскировки для каждого частотного диапазона аудиоданных 3 в частотной области. Эти значения кривой маскировки представляют уровень сигнала, маскируемого человеческим ухом в каждом частотном диапазоне. Квантователь 6 использует эту информацию, чтобы решить, как наилучшим образом использовать доступное число битов данных для представления данных в частотной области каждого частотного диапазона входного звукового сигнала.

Известно, что при общепринятом E-AC-3 кодировании кодируются дифференциальные порядки (т.е. разница между последовательными порядками) вместо абсолютных порядков. Дифференциальные порядки могут принимать только одно из пяти значений: 2, 1, 0, -1 и -2. Если отыскивается дифференциальный порядок за пределами этого диапазона, то один из порядков, будучи вычитаемым, модифицируется таким образом, что дифференциальный порядок (после модификации) находится в пределах известного диапазона (этот общепринятый способ известен как "включение порядков" или "включение"). Звено 10 включения кодера на фиг. 1 формирует включенные порядки в ответ на необработанные порядки, заявленные ему, выполняя такую операцию включения.

В типовом варианте осуществления E-AC-3 кодирования 5- или 5.1-канальный звуковой сигнал кодируется с битовой скоростью передачи данных в диапазоне от приблизительно 96 кбит/с до приблизительно 192 кбит/с. В настоящее время при 192 кбит/с типовой E-AC-3 кодер кодирует 5-канальный (или 5.1-канальный) входной сигнал, используя комбинацию дискретного кодирования формы сигнала для нижних частотных составляющих (например, до 3,5 кГц или 4,6 кГц) каждого канала сигнала, взаимосвязи каналов для промежуточных частотных составляющих (например, от 3,5 кГц до приблизительно 10 кГц или от 4.6 кГц до приблизительно 10 кГц) каждого канала сигнала и спектрального расширения для верхних частотных составляющих (например, от приблизительно 10 кГц до 16 кГц или от приблизительно 10 кГц до 14,8 кГц) каждого канала сигнала. Хотя это дает приемлемое качество, но в силу того, что максимальная битовая скорость передачи данных, доступная для передачи кодированного выходного сигнала, снижается ниже 192 кбит/с, качество (декодированной версии кодированного выходного сигнала) быстро ухудшается. Например, при использовании формата E-AC-3 для кодирования 5.1-канального звукового сигнала для потоковой передачи ограничения ширины полосы пропускания временных данных могут потребовать скорости передачи данных ниже чем 192 кбит/с (например, 64 кбит/с). Тем не менее, применение формата E- AC-3 для кодирования 5.1-канального сигнала для передачи при битовой скорости передачи данных ниже 192 кбит/с не производит "вещательного качества" кодированного звукового сигнала. Для того чтобы кодировать сигнал (с помощью E-AC-3 кодирования) для передачи при битовой скорости передачи данных существенно ниже 192 кбит/с (например, 96 кбит/с, или 128 кбит/с, или 160 кбит/с), должно быть найдено лучшее доступное оптимальное соотношение между шириной полосы звуковых частот (доступной для передачи кодированного звукового сигнала), искажениями кодирования и пространственным сворачиванием. В целом, авторы признали, что должно быть найдено лучшее оптимальное соотношение между шириной полосы звуковых частот, искажениями кодирования и пространственным свертыванием, чтобы иным образом кодировать многоканальный входной звуковой сигнал для передачи при низких (или меньших, чем обычно) битовых скоростях передачи данных.

Одно простое решение состоит в том, чтобы посредством понижающего микширования многоканального входного звукового сигнала получить числа каналов, которое может быть получено в надлежащем качестве (например, в "вещательном качестве", если это минимально адекватное качество) для доступной битовой скорости передачи данных, а затем выполнить общепринятую кодировку каждого канала понижающего микширования. Например, можно выполнить понижающее микширование пятиканального входного сигнала до трехканального понижающего микширования (где доступная битовая скорость передачи данных составляет 128 кбит/с) или двухканального понижающего микширования (где доступная битовая скорость передачи данных составляет 96 кбит/с). Тем не менее это решение сохраняет качество кодирования и ширину полосы пропускания звуковых частот за счет неблагоприятного пространственного сворачивания.

Другое простое решение состоит в том, чтобы избежать понижающего микширования (например, для получения полного 5.1-канального кодированного выходного сигнала в ответ на 5.1-канальный входной сигнал), и вместо этого привести кодек к его пределу. Тем не менее это решение будет вносить больше искажений кодирования и уменьшать ширину полосы пропускания звуковых частот, несмотря на то, что могло сохранить по возможности как можно больше пространственности.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В типовых вариантах осуществления настоящее изобретение относится к способу гибридного кодирования многоканального входного звукового сигнала (например, к способу кодирования, совместимому со стандартом Е-AC-3). Способ включает этапы формирования понижающего микширования низкочастотных составляющих (например, имеющих частоты до максимального значения в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц или от приблизительно 3,5 кГц до приблизительно 4,6 кГц) отдельных каналов входного сигнала, выполнения кодирования формы сигнала каждого канала понижающего микширования, а также выполнения параметрического кодирования других частотных составляющих (по меньшей мере некоторых промежуточных частотных и/или высокочастотных составляющих) каждого канала входного сигнала (без выполнения предварительного понижающего микширования других частотных составляющих любого из каналов входного сигнала).

В типичных вариантах осуществления в способе кодирования согласно изобретению входной сигнал сжимают так, что кодированный выходной сигнал содержит меньше битов, чем входной сигнал, и так, что кодированный сигнал может быть передан с хорошим качеством при низкой битовой скорости передачи данных (например, в диапазоне от приблизительно 96 кбит/с до приблизительно 160 кбит/с для варианта осуществления, совместимого с E-AC-3 стандартом, где "кбит/с" означает килобит в секунду). В данном случае передающая битовая скорость передачи данных является "низкой" в том смысле, что она существенно ниже, чем обычно предусмотренная скорость для передачи стандартно кодированного звукового сигнала (например, типичной битовой скорости передачи данных 192 кбит/с для стандартно кодированного звукового сигнала в формате E-AC-3), но больше, чем минимальная битовая скорость передачи данных, ниже которой будет необходимо полное параметрическое кодирование входного сигнала для достижения адекватного качества (декодированной версии передаваемого кодированного сигнала). С целью обеспечения адекватного качества (декодированной версии кодированного сигнала после передачи кодированного сигнала, например, при низкой битовой скорости передачи данных) многоканальный входной сигнал кодируется как комбинация понижающего микширования с кодированной формой сигнала низкочастотного содержимого исходных каналов входного сигнала и параметрически кодированной версии высокочастотного (выше, чем низкочастотный) содержимого каждого исходного канала входного сигнала. Значительная экономия битовой скорости передачи данных достигается посредством понижающего микширования с кодированием формы сигнала низкочастотного содержимого по сравнению с дискретным кодированием формы сигнала низкочастотного содержимого каждого исходного входного канала. Поскольку количество данных, необходимых (для включения в кодированный сигнал) для параметрического кодирования высоких частот каждого входного канала, относительно мало, то можно параметрически кодировать верхние частоты каждого входного канала без существенного увеличения битовой скорости передачи данных, при которой кодированный сигнал может передаваться, что приводит к повышению пространственной образности при относительно низких затратах "битовой скорости передачи данных". Типовые варианты осуществления способа гибридного (формы сигнала и параметрического) кодирования согласно изобретению обеспечивают возможность для большего управления балансом между искажениями, возникающими в результате сворачивания пространственного образа (из-за понижающего микширования), и шумом кодирования, что обычно приводит к общему улучшению воспринимаемого качества (декодированной версии кодированного сигнала) по отношению к тому, которое может достигаться посредством общепринятых способов.

В некоторых вариантах осуществления изобретение представляет собой способ E-AC-3 кодирования или систему, в которых формируется кодированный звуковой сигнал специально для передачи потокового содержимого в средах с чрезвычайно ограниченной шириной полосы. В других вариантах осуществления в соответствии со способом кодирования и системой согласно изобретению формируется кодированный звуковой сигнал для передачи с более высокой битовой скоростью передачи данных для более общих применений.

В классе вариантов осуществления понижающее микширование только низкочастотных диапазонов каждого канала входного многоканального звука (с последующим кодированием формы сигнала полученного понижающего микширования низкочастотных составляющих) позволяет экономить большое количество битов (то есть уменьшает число битов кодированного выходного сигнала) посредством устранения необходимости включения (в кодированный выходной сигнал) кодированных битов формы сигнала для низкочастотных диапазонов звукового содержимого, а также сводит к минимуму (или уменьшает) пространственное сворачивание при представлении декодированной версии переданного кодированного сигнала в результате включения (в кодированный сигнал) параметрически кодированного содержимого (например, содержимого с взаимосвязью каналов и спектральным расширением) всех каналов исходного входного звукового сигнала. Кодированный сигнал, формируемый в таких вариантах осуществления, имеет более сбалансированное соотношение пространственных, связанных с шириной полосы и кодированием искажений, чем если бы он был сформирован посредством общепринятого способа кодирования (например, одного из вышеперечисленных простых способов кодирования).

В некоторых вариантах осуществления изобретение представляет собой способ кодирования многоканального входного звукового сигнала, включающий этапы: формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов входного сигнала; кодирования формы сигнала каждого канала понижающего микширования, тем самым формируя данные с кодированной формой сигнала и понижающим микшированием, указывающие на звуковое содержимое понижающего микширования; выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих (например, промежуточных частотных составляющих и/или высокочастотных составляющих) каждого канала входного сигнала (например, выполнение кодирования взаимосвязи каналов промежуточных частотных составляющих и кодирования спектрального расширения высокочастотных составляющих), тем самым формируя параметрически кодированные данные, указывающие на указанные по меньшей мере некоторые верхние частотные составляющие указанного каждого канала входного сигнала; и формирования кодированного звукового сигнала, указывающего на данные с кодированной формой сигнала и понижающим микшированием и параметрически кодированные данные. В некоторых таких вариантах осуществления кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

Другим аспектом изобретения является способ декодирования кодированных аудиоданных, включающий этапы приема сигнала, указывающего на кодированные аудиоданные, где кодированные аудиоданные были получены посредством кодирования аудиоданных в соответствии с любым из вариантов осуществления способа кодирования согласно изобретению, и декодирования кодированных аудиоданных для формирования сигнала, указывающего на аудиоданные.

Например, в некоторых вариантах осуществления изобретение представляет собой способ декодирования кодированного звукового сигнала, указывающего на данные с кодированной формой сигнала и параметрически кодированные данные, где кодированный звуковой сигнал сформирован посредством формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов многоканального входного звукового сигнала, кодирования формы сигнала каждого канала понижающего микширования, тем самым формируя данные с кодированной формой сигнала таким образом, что указанные данные с кодированной формой сигнала указывают на звуковое содержимое понижающего микширования, выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, тем самым формируя параметрически кодированные данные таким образом, что указанные параметрически кодированные данные указывают на указанные по меньшей мере некоторые верхние частотные составляющие указанного каждого канала входного сигнала, и формирования кодированного звукового сигнала в ответ на данные с кодированной формой сигнала и параметрически кодированные данные. Способ декодирования включает этапы: извлечения данных с кодированной формой сигнала и параметрически кодированных данных из кодированного звукового сигнала; выполнения декодирования формы сигнала извлеченных данных с кодированной формой сигнала для формирования первого множества восстановленных частотных составляющих, указывающих на низкочастотное звуковое содержимое каждого канала понижающего микширования; и выполнения параметрического декодирования извлеченных параметрически кодированных данных для формирования второго множества восстановленных частотных составляющих, указывающих на верхнюю частоту (например, промежуточную частоту и высокую частоту) звукового содержимого каждого канала многоканального входного звукового сигнала. В некоторых таких вариантах осуществления многоканальный входной звуковой сигнал содержит N каналов, где N - целое число, и способ декодирования также включает этап формирования N каналов декодированных данных в частотной области, включающих посредством комбинирования указанного первого множества восстановленных частотных составляющих и указанного второго множества восстановленных частотных составляющих таким образом, что каждый канал декодированных данных в частотной области указывает на промежуточно-частотное и высокочастотное звуковое содержимое одного отличающегося канала из других каналов многоканального входного звукового сигнала, и каждый из по меньшей мере подмножества каналов декодированных данных в частотной области указывает на низкочастотное звуковое содержимое многоканального входного звукового сигнала.

Другой аспект настоящего изобретения представляет собой систему, содержащую кодер, выполненный с возможностью (например, запрограммированный) выполнения любого варианта осуществления способа кодирования согласно изобретению для формования кодированных аудиоданных в ответ на аудиоданные, и декодер, выполненный с возможностью декодирования кодированных аудиоданных для восстановления аудиоданных.

В других аспектах настоящего изобретения предложена система или устройство (например, кодер, декодер или процессор), выполненные с возможностью (например, запрограммированные) выполнения любого варианта осуществления способа согласно изобретению, и машиночитаемый носитель (например, диск), который хранит код для реализации любого варианта осуществления способа согласно изобретению или его этапов. Например, система согласно изобретению может представлять собой или содержать программируемый процессор общего назначения, цифровой сигнальный процессор или микропроцессор, запрограммированный с помощью программных средств или аппаратно-программных средств и/или иным образом настроенный для выполнения любой из множества операций с данными, включая вариант осуществления способа согласно изобретению или его этапы. Такой процессор общего назначения может представлять собой или содержать компьютерную систему, содержащую устройства ввода, запоминающее устройство и схему обработки, запрограммированную (и/или иным способом настроенную) для выполнения варианта осуществления способа (или его этапов) согласно изобретению в ответ на заявленные данные.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На фиг. 1 приведена структурная схема общепринятой системы кодирования.

На фиг. 2 приведена структурная схема системы кодирования, выполненная с возможностью выполнения варианта осуществления способа кодирования согласно изобретению.

На фиг. 3 приведена структурная схема системы декодирования, выполненная с возможностью выполнения варианта осуществления способа декодирования согласно изобретению.

На фиг. 4 приведена структурная схема системы, содержащей кодер, выполненный с возможностью выполнения любого варианта осуществления способа кодирования согласно изобретению для формирования кодированных аудиоданных в ответ на аудиоданные, и декодер, выполненный с возможностью декодирования кодированных аудиоданных для восстановления аудиоданных.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Вариант осуществления способа кодирования согласно изобретению и системы, выполненной с возможностью реализации способа, будет описан со ссылкой на фиг. 2. Система на фиг. 2 представляет собой Е-АС-3 кодер, который выполнен с возможностью формирования кодированного в формате E-AC-3 звукового битового потока (31) в ответ на многоканальный входной звуковой сигнал (21). Сигнал 21 может быть сигналом "5.0-канальным" сигналом во временной области, содержащим пять полнодиапазонных каналов звукового содержимого.

Система на фиг. 2 также выполнена с возможностью формирования кодированного в формате E-AC-3 звукового битового потока 31 в ответ на 5.1-канальный входной звуковой сигнал 21, содержащий пять полнодиапазонных каналов и один канал низкочастотных эффектов (LFE). Элементы, показанные на фиг. 2, в состоянии кодировать пять полнодиапазонных входных каналов, а также предусматривать биты, указывающие на кодированные полнодиапазонные каналы для звена 30 форматирования для включения в выходной битовый поток 31. Общепринятые элементы системы кодирования канала LFE (общепринятым способом) и предусмотрения битов, указывающих на кодированный канал LFE для звена 30 форматирования для включения в выходной битовый поток 31, не показаны на фиг. 2.

Звено 22 преобразования временной области в частотную область на фиг. 2 выполнено с возможностью преобразования каждого канала входного сигнала 21 во временной области в канал аудиоданных в частотной области. Ввиду того, что система на фиг. 2 представляет собой Е-AC-3 кодер, частотные составляющие каждого канала группируются по частотам в 50 неоднородных диапазонов, аппроксимирующих частотные диапазоны хорошо известной психоакустической шкалы, известной как барк-шкала. В разновидностях варианта осуществления на фиг. 2 (например, в котором кодированный выходной звуковой сигнал 31 не имеет E-AC-3 совместимого формата) частотные составляющие каждого канала входного сигнала группируются по частотам другим способом (т.е. на основании любого множества однородных или неоднородных диапазонов частот).

Низкочастотные составляющие всех или некоторых каналов, выходящих из звена 22, подвергаются понижающему микшированию в звене 23 понижающего микширования. Низкочастотные составляющие имеют частоты, которые меньше или равны максимальной частоте "F1", где F находится, как правило, в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц.

Среднечастотные составляющие всех каналов, выходящих из звена 22, подвергаются кодированию взаимосвязи каналов в звене 26. Среднечастотные составляющие имеют частоты f в диапазоне F1<f≤ F2, где F находится, как правило, в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц, а F2 находится, как правило, в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц (например, F2 равна 8 кГц, или 10 кГц, или 10,2 кГц).

Высокочастотные составляющие всех каналов, выходящих из звена 22, подвергаются кодированию спектрального расширения в звене 28. Высокочастотные составляющие имеют частоты f в диапазоне F2 <f≤ F3, где F2 находится, как правило, в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц, а F3 находится, как правило, в диапазоне от приблизительно 10,2 кГц до приблизительно 18 кГц.

Авторы определили, что понижающее микширование с кодированием формы сигнала (например, трехканальное понижающее микширование входного сигнала, имеющего пять полнодиапазонных каналов) низкочастотных составляющих звукового содержимого некоторых или всех каналов многоканального входного сигнала (вместо дискретного кодирования формы сигнала низкочастотных составляющих звукового содержимого всех пяти полнодиапазонных входных каналов и параметрическое кодирование других частотных составляющих каждого канала входного сигнала) дает в результате кодированный выходной сигнал, имеющий улучшенное качество по сравнению с полученным с использованием стандартного E-AC-3 кодирования с пониженной битовой скоростью передачи данных, и позволяет избежать нежелательного пространственного сворачивания. Система на фиг. 2 выполнена с возможностью выполнения такого варианта осуществления способа кодирования согласно изобретению. Например, система на фиг. 2 может выполнять такой вариант осуществления способа согласно изобретению для формирования кодированного выходного сигнала 31 с улучшенным качеством (таким образом не допуская нежелательного пространственного сворачивания) в случае, когда многоканальный входной сигнал 21 имеет пять полнодиапазонных каналов (т.е. является 5- или 5.1-канальным звуковым сигналом) и кодируется со сниженной битовой скоростью передачи данных (например, 160 кбит/с или другой битовой скоростью передачи данных, которая больше чем приблизительно 96 кбит/с и существенно меньше чем 192 кбит/с, где "кбит/с" обозначает килобит в секунду), где "сниженная" битовая скорость передачи данных означает, что битовая скорость передачи данных ниже битовой скорости передачи данных, при которой обычно работает стандартный E-AC-3 кодер при кодировании такого же входного сигнала. Несмотря на то что как в указанном варианте осуществления способа согласно изобретению, так и общепринятом способе E-AC-3 кодирования кодируют промежуточные и верхние частотные составляющие звукового содержимого входного сигнала, используя параметрические методы (то есть кодирование взаимосвязи каналов, как выполняемое в звене 26 системы на фиг. 2, и кодирование спектрального расширения, как выполняемое в звене 28 системы на фиг. 2), в способе согласно изобретению выполняют кодирование формы сигнала низкочастотных составляющих содержимого только уменьшенного количества (например, трех) каналов понижающего микширования, вместо всех пяти дискретных каналов входного звукового сигнала. Это приводит к выгодному соотношению, при котором шум кодирования в каналах понижающего микширования уменьшается (например, так как кодирование формы сигнала выполняется на низкочастотных составляющих каналов, количество которых меньше пяти, а не пять) за счет потери пространственной информации (поскольку низкочастотные данные из некоторых каналов, обычно каналов окружающего звука, смешиваются в других каналах, обычно передних каналах). Авторы определили, что это соотношение, как правило, приводит к выходному сигналу лучшего качества (который обеспечивает лучшее качество звука после передачи, декодирования и представления кодированного выходного сигнала), чем при выполнении стандартного E-AC-3 кодирования входного сигнала со сниженной битовой скоростью передачи данных.

В типичном варианте осуществления звено 23 понижающего микширования системы на фиг. 2 заменяет низкочастотные составляющие каждого канала первого подмножества каналов входного сигнала (обычно, правого и левого каналов окружающего звука Ls и Rs окружающего звука) на нулевые значения и пропускает неизменными (к звену 24 кодирования формы сигнала) низкочастотные составляющие других каналов входного сигнала (например, левого переднего канала L, центрального канала С и правого переднего канала R, как показано на фиг. 2) в качестве понижающего микширования низкочастотных составляющих входных каналов. В альтернативном варианте понижающее микширование низкочастотного содержимого формируется другим образом. Например, в одной альтернативной реализации операция формирования понижающего микширования включает этап смешивания низкочастотных составляющих по меньшей мере одного канала первого подмножества с низкочастотными составляющими по меньшей мере одного из других каналов входного сигнала (например, звено 23 может реализовываться для смешивания правого канала окружающего звука Rs и правого переднего канала R, подаваемых для создания правого канала понижающего микширования, и для смешивания левого канала окружающего звука Ls и левого переднего канала L, подаваемых для создания левого канала понижающего микширования).

Каждый канал понижающего микширования, формируемый в звене 23, подвергается кодированию формы сигнала (общепринятым способом) в звене 24 кодирования формы сигнала. В типовой реализации, в которой звено 23 понижающего микширования заменяет низкочастотные составляющие каждого канала первого подмножества каналов входного сигнала (например, левого и правого каналов окружающего звука Ls и Rs, как указано на фиг. 2) на канал низкочастотных составляющих, содержащий нулевые значения, и каждый такой канал, содержащий нулевые значения (иногда называемый в данной заявке "беззвучным" каналом), выводится из звена 23 вместе с каждым ненулевым (небеззвучным) каналом понижающего микширования. Когда каждый ненулевой канал понижающего микширования (формируемый в звене 23) подвергается кодированию формы сигнала в звене 24, каждый "беззвучный" канал, подаваемый из звена 23 в звено 24, как правило, также с кодированной формой сигнала (при очень низких затратах на обработку и битовых затратах). Все каналы с кодированной формой сигнала, сформированные в звене 24 (включая любые беззвучные каналы с кодированной формой сигнала), выводятся из звена 24 в звено 30 форматирования для включения в соответствующем формате в кодированный выходной сигнал 31.

В типовых вариантах осуществления, когда кодированный выходной сигнал 31 передается (например, пересылается) к декодеру (например, декодеру, который будет описан со ссылкой на фиг. 3), декодер видит полное количество каналов с кодированной формой сигнала (например, пять каналов с кодированной формой сигнала) низкочастотного звукового содержимого, но подмножества из них (например, два из них в случае трехканального понижающего микширования или три из них в случае двухканального понижающего микширования) являются "беззвучными" каналами, полностью состоящими из нулевых значений.

С целью формирования понижающего микширования низкочастотного содержимого различные варианты осуществления изобретения (например, различные реализации звена 23 на фиг. 2) используют различные способы. В некоторых вариантах осуществления, в которых входной сигнал имеет пять полнодиапазонных каналов (левый передний канал, левый канал окружающего звука, правый передний канал, правый канал окружающего звука и центральный канал) и формируется 3-канальное понижающее микширование, низкочастотные составляющие левого канала окружающего звука входного сигнала примешиваются в низкочастотные составляющие левого переднего канала входного сигнала для формирования левого переднего канала понижающего микширования, а низкочастотные составляющие правого канала окружающего звука входного сигнала примешиваются в низкочастотные составляющие правого переднего канала входного сигнала для формирования правого переднего канала понижающего микширования. Центральный канал входного сигнала не изменяется (т.е. не подвергается смешиванию) перед кодированием формы сигнала и параметрическим кодированием, а низкочастотные составляющие левого и правого каналов окружающего звука понижающего микширования устанавливаются в нули.

В альтернативном варианте, если формируется 2-канальное понижающее микширование (т.е. для еще более низких битовых скоростей передачи данных) в дополнение к смешиванию низкочастотных составляющих левого канала окружающего звука входного сигнала с низкочастотными составляющими левого переднего канала входного сигнала, то низкочастотные составляющие центрального канала входного сигнала также смешиваются с низкочастотными составляющими левого переднего канала входного сигнала, а низкочастотные составляющие правого канала окружающего звука и центрального канала входного сигнала смешиваются с низкочастотными составляющими правого переднего канала входного сигнала, как правило, после снижения уровня низкочастотных составляющих центрального канала входного сигнала на 3 дБ (для обеспечения разделения мощности центрального канала между левым и правым каналами).

В других альтернативных вариантах осуществления формируется монофоническое (одноканальное) понижающее микширование или формируется понижающее микширование, которое имеет некоторое количество каналов (например, четыре), отличное от двух или трех каналов.

Снова со ссылкой на фиг. 2, среднечастотные составляющие всех каналов, выходящих из звена 22 (то есть все пять каналов среднечастотных составляющих, полученных в ответ на входной сигнал 21, имеющий пять полнодиапазонных каналов), подвергаются общепринятому кодированию взаимосвязи каналов в звене 26 кодирования взаимосвязи каналов. Выход звена 26, монофоническое понижающее микширование среднечастотных составляющих (обозначенное "монофоническая звукозапись" на фиг. 2) и соответствующая последовательность параметров взаимосвязи.

Монофоническое понижающее микширование кодируется по форме сигнала (общепринятым способом) в звене 27 кодирования формы сигнала, и понижающее микширование с кодированной формой сигнала, выходящее из звена 27, и соответствующая последовательность параметров взаимосвязи, выходящая из звена 26, подаются на звено 30 форматирования для включения в соответствующем формате в кодированный выходной сигнал 31.

Монофоническое понижающее микширование, формируемое звеном 26 как результат кодирования взаимосвязи каналов, также подается на звено 28 кодирования спектрального расширения. Данное монофоническое понижающее микширование используется звеном 28 в качестве сигнала основной полосы частот для кодирования спектрального расширения высокочастотных составляющих всех каналов, выходящих из звена 22. Звено 28 выполнено с возможностью выполнения кодирования спектрального расширения высокочастотных составляющих всех каналов, выходящих из звена 22 (то есть всех пяти каналов высокочастотных составляющих, полученных в ответ на входной сигнал 21, имеющий пять полных каналов), используя монофоническое понижающее микширование из звена 26. Кодирование спектрального расширения включает определение множества параметров кодирования (параметров SPX), соответствующих высокочастотным составляющим.

Параметры SPX могут обрабатываться декодером (например, декодером на фиг. 3) с сигналом основной полосы частот (выходящим из звена 26) для восстановления с хорошим приближением высокочастотных составляющих звукового содержимого каждого из каналов входного сигнала 21. Параметры SPX подаются из звена 28 кодирования в звено 30 форматирования для включения в соответствующем формате в кодированный выходной сигнал 31.

Далее со ссылкой на фиг. 3 описывается вариант осуществления способа согласно изобретению и системы декодирования кодированного выходного сигнала 31, сформированного кодером на фиг. 2.

Система на фиг. 3 представляет собой Е-AC-3 декодер, который реализует вариант осуществления системы и способа декодирования согласно изобретению и выполнен с возможностью восстановления многоканального выходного звукового сигнала 41 в ответ на кодированный звуковой битовый поток в формате E-AC-3 (например, кодированный сигнал 31 в формате E -AC-3, формируемый кодером на фиг. 2, а затем передаваемый или иным образом доставляемый к декодеру на фиг. 3). Сигнал 41 может быть 5.0-канальным сигналом во временной области, содержащим пять полнодиапазонных каналов звукового содержимого, где сигнал 31 указывает на звуковое содержимое такого 5.0-канального сигнала.

В альтернативном варианте сигнал 41 может быть 5.1-канальным звуковым сигналом во временной области, содержащим пять полнодиапазонных каналов и один канал низкочастотных эффектов (LFE), если сигнал 31 указывает на звуковое содержимое такого 5.1-канального сигнала. Элементы, показанные на фиг. 3, способны декодировать пять полнодиапазонных каналов, указанных таким сигналом 31 (и обеспечивающих биты, указывающие на декодированные полнодиапазонные каналы звену 40 для использования в формировании выходного сигнала 41). Для декодирования сигнала 31, указывающего на звуковое содержимое 5.1-канального сигнала, система на фиг. 3 будет содержать общепринятые элементы (не показанные на фиг. 3) для декодирования канала LFE такого 5.1-канального сигнала (общепринятым способом) и обеспечения битов, указывающих на декодированный канал LFE звену 40 для применения при формировании выходного сигнала 41.

Звено 32 деформатирования декодера на фиг. 3 выполнено с возможностью извлечения из сигнала 31 низкочастотных составляющих с кодированной формой сигнала (формируемых звеном 24 кодера на фиг. 2) понижающего микширования низкочастотных составляющих всех или некоторые исходных каналов сигнала 21; монофонического понижающего микширования с кодированной формой сигнала среднечастотных составляющих сигнала 21 (формируемого звеном 27 кодера на фиг. 2); последовательности параметров взаимосвязи, формируемых звеном 26 кодирования взаимосвязи каналов кодера на фиг. 2; и последовательности параметров SPX, формируемых звеном 28 кодирования спектрального расширения кодера на фиг. 2.

Звено 32 соединено и выполнено с возможностью подачи в звено 34 декодирования формы сигнала каждого канала извлеченного понижающего микширования низкочастотных составляющих с кодированной формой сигнала. Звено 34 выполнено с возможностью осуществления декодирования формы сигнала в каждом таком канале понижающего микширования низкочастотных составляющих с кодированной формой сигнала для восстановления каждого канала понижающего микширования низкочастотных составляющих, который вышел из звена 23 понижающего микширования кодера на фиг. 2. Как правило, эти восстановленные каналы понижающего микширования низкочастотных составляющих включают беззвучные каналы (например, беззвучный левый канал окружающего звука Ls = 0, показанный на фиг. 3, и беззвучный правый канал окружающего звука Rs = 0, показанный на фиг. 3) и каждый небеззвучный канал низкочастотных составляющих понижающего микширования, формируемого звеном 23 кодера на фиг. 2 (например, левый передний канал L, центральный канал С и правый передний канал R, показанные на фиг. 3). Низкочастотные составляющие каждого канала понижающего микширования, выходящие из звена 34, имеют частоты, которые меньше или равны "F1", где F1 находится, как правило, в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц.

Восстановленные каналы понижающего микширования низкочастотных составляющих подаются из звена 34 в звено 40 объединения в частотной области и преобразования из частотной области во временную область.

В ответ на монофоническое понижающее микширование с кодированной формой сигнала среднечастотных составляющих, извлекаемых звеном 32, звено 36 декодирования формы сигнала декодера на фиг. 3 выполнено с возможностью осуществления декодирования формы сигнала для восстановления монофонического понижающего микширования среднечастотных составляющих, которое вышло из звена 26 кодирования взаимосвязи каналов кодера на фиг. 2. В ответ на монофоническое понижающее микширование среднечастотных составляющих, восстановленное звеном 36, и последовательность параметров взаимосвязи, извлеченных звеном 32, звено 37 декодирования взаимосвязи каналов на фиг. 3 выполнено с возможностью осуществления декодирования взаимосвязи каналов для восстановления среднечастотных составляющих исходных каналов сигнала 21 (которые были поданы на входы звена 26 кодера на фиг. 2). Эти среднечастотные составляющие имеют частоты в диапазоне F1<f≤F2, где F1 находится, как правило, в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц, а F2 находится, как правило, в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц (например, F2 равна 8 кГц, или 10 кГц, или 10,2 кГц).

Восстановленные среднечастотные составляющие подаются из звена 37 в звено 40 объединения в частотной области и преобразования из частотной области во временную область.

Монофоническое понижающее микширование среднечастотных составляющих, формируемое звеном 36 декодирования формы сигнала, также подается в звено 38 декодирования спектрального расширения. В ответ на монофоническое понижающее микширование среднечастотных составляющих и последовательность параметров SPX, извлеченных звеном 32, звено 38 декодирования спектрального расширения выполнено с возможностью осуществления декодирования спектрального расширения для восстановления высокочастотных составляющих исходных каналов сигнала 21 (которые подавались на входы звена 28 кодера на фиг. 2). Данные высокочастотные составляющие имеют частоты в диапазоне F2 <f≤ F3, где F2 находится, как правило, в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц, а F3 находится, как правило, в диапазоне от приблизительно 10,2 кГц до приблизительно 18 кГц (например, от приблизительно 14,8 кГц до приблизительно 16 кГц).

Восстановленные высокочастотные составляющие подаются из звена 38 в звено 40 объединения в частотной области и преобразования из частотной области во временную область.

Звено 40 выполнено с возможностью объедения (например, суммирования вместе) восстановленных среднечастотных составляющих, высокочастотных составляющих и низкочастотные составляющих, которые соответствуют левому переднему каналу исходного многоканального сигнала 21, для формования восстановленной версии в частотной области полного диапазона частот левого переднего канала.

Аналогичным образом звено 40 выполнено с возможностью объединения (например, суммирования вместе) восстановленных среднечастотных составляющих, высокочастотных составляющих и низкочастотных составляющих, которые соответствуют правому переднему каналу исходного многоканального сигнала 21, для формирования восстановленной версии в частотной области полного диапазона частот правого переднего канала и объединения (например, суммирования вместе) восстановленных среднечастотных составляющих, высокочастотных составляющих и низкочастотных составляющих, которые соответствуют центру исходного многоканального сигнала 21, для формирования восстановленной версии в частотной области полного диапазона частот центрального канала.

Звено 40 также выполнено с возможностью объединения (например, суммирования вместе) восстановленных низкочастотных составляющих левого канала окружающего звука исходного многоканального сигнала 21 (которые имеют нулевые значения, так как левый канал окружающего звука понижающего микширования низкочастотных составляющих является беззвучным каналом) с восстановленными среднечастотными составляющими и высокочастотными составляющими, которые соответствуют левому каналу окружающего звука исходного многоканального сигнала 21, для формирования восстановленной версии в частотной области левого переднего канала окружающего звука, который имеет полный диапазон частот (хотя не хватает низкочастотного содержимого из-за понижающего микширования, выполняемого в звене 23 кодера на фиг. 2).

Звено 40 также выполнено с возможностью объединения (например, суммирования вместе) восстановленных низкочастотных составляющих правого канала окружающего звука исходного многоканального сигнала 21 (которые имеют нулевые значения, так как правый канал окружающего звука понижающего микширования низкочастотных составляющих является беззвучным каналом) с восстановленными среднечастотными составляющими и высокочастотными составляющими, которые соответствуют правому каналу окружающего звука исходного многоканального сигнала 21, для формирования восстановленной версии в частотной области правого переднего канала окружающего звука, который имеет полный диапазон частот (хотя не хватает низкочастотного содержимого из-за понижающего микширования, выполняемого в звене 23 кодера на фиг. 2).

Звено 40 также выполнено с возможностью осуществления преобразования из частотной области во временную область на каждом восстановленном (в частотной области) канале полного диапазона частот частотных составляющих для формирования каждого канала декодированного выходного сигнала 41. Сигнал 41 представляет собой многоканальный звуковой сигнал во временной области, каналы которого представляют собой восстановленные версии каналов исходного многоканального сигнала 21.

В общем, типовые варианты осуществления способа и системы декодирования согласно изобретению восстанавливают (из кодированного звукового сигнала, который был сформирован в соответствии с вариантом осуществления настоящего изобретения) каждый канал понижающего микширования с кодированной формой сигнала низкочастотных составляющих звукового содержимого каналов (некоторых или всех каналов) исходного многоканального входного сигнала, а также восстанавливают каждый канал параметрически кодированных средне- и высокочастотных составляющих содержимого каждого канала многоканального входного сигнала. Чтобы выполнить декодирование, восстановленные низкочастотные составляющие понижающего микширования подвергаются декодированию формы сигнала и затем могут быть объединены с параметрически декодированными версиями восстановленных средне- и высокочастотных составляющих любым из нескольких различных способов. В первом классе вариантов осуществления низкочастотные составляющие каждого канала понижающего микширования объединяются с промежуточными и высокочастотными составляющими соответствующего параметрически кодированного канала. Например, рассмотрим случай, когда кодированный сигнал включает 3-канальное понижающее микширование (левый передний, центральный и правый передний каналы) низкочастотных составляющих пятиканального входного сигнала и когда кодер имел выходные нулевые значения (в связи с формированием понижающего микширования низкочастотных составляющих) вместо низкочастотных составляющих левого и правого каналов окружающего звука входного сигнала. Левым выходом декодера будет левый передний канал понижающего микширования с декодированной формой сигнала (содержащий низкочастотные составляющие), объедененный с параметрически декодированным сигналом левого канала (содержащим средне- и высокочастотные составляющие). Выход центрального канала из декодера будет центральным каналом понижающего микширования с декодированной формой сигнала, объединенным с параметрически декодированным центральным каналом. Правый выход декодера будет правым передним каналом понижающего микширования с декодированной формой сигнала, объединенным с параметрически декодированным правым каналом. Выход левого канала окружающего звука декодера будет просто левым окружающим параметрически декодированным сигналом (то есть будет ненулевое низкочастотное содержимое левого канала окружающего звука). Аналогичным образом выход правого канала окружающего звука декодера будет только правым окружающим параметрически декодированным сигналом (то есть будет ненулевое низкочастотное содержимое правого канала окружающего звука).

В некоторых альтернативных вариантах осуществления способ декодирования согласно изобретению включает этапы (и система декодирования согласно изобретению выполнена с возможностью осуществления) восстановления каждого канала понижающего микширования с кодированной формой сигнала низкочастотных составляющих звукового содержимого каналов (всех или некоторых каналов) исходного входного многоканального сигнала и слепое повышающее микширование (то есть "слепое" в том смысле, что выполняется не в ответ на любые параметрические данные, полученные от кодера) версии с декодированной формой сигнала каждого канала понижающего микширования низкочастотных составляющих понижающего микширования, с последующим воссоединением каждого канала низкочастотных составляющих повышающего микширования с соответствующим каналом параметрически декодированного средне- и высокочастотного содержимого, восстановленного из кодированного сигнала. Слепые повышающие микшеры хорошо известны из уровня техники, и пример слепого повышающего микширования описан в публикации заявки на патент США № 2011/0274280 A1, опубликованной 10 ноября 2011 года. Никакого особого слепого повышающего микшера не требуется в соответствии с изобретением, а также для реализации различных вариантов осуществления настоящего изобретения могут использоваться различные методы слепого повышающего микширования. Например, рассмотрим вариант осуществления, который принимает и декодирует кодированный звуковой сигнал, включающий 3-канальное понижающее микширование (содержащий левый передний, центральный и правый передний каналы) низкочастотных составляющих пятиканального входного сигнала (содержащего левый передний канал, левый канал окружающего звука, центральный канал, правый канал окружающего звука и правый передний канал). В этом варианте осуществления декодер содержит слепой повышающий микшер (например, реализованный в частотной области посредством звена 40 на фиг. 3), выполненный с возможностью осуществления слепого повышающего микширования версии с декодированной формой сигнала каждого канала понижающего микширования (левого переднего, центрального и правого переднего) низкочастотных оставляющих 3-канального понижающего микширования. Декодер также выполнен с возможностью объединения (например, звено 40 на фиг. 3 выполнено с возможностью объединения) левого переднего выходного канала (содержащего низкочастотные составляющие) слепого повышающего микшера декодера с параметрически декодированным левым передним каналом (содержащим средне- и высокочастотные составляющие) кодированного звукового сигнала, принимаемого декодером, левого выходного канала окружающего звука слепого повышающего микшера (содержащего низкочастотные составляющие) с параметрически декодированным левым каналом окружающего звука (содержащим средне- и высокочастотные составляющие) звукового сигнала, принимаемого декодером, центрального выходного канала слепого повышающего микшера (содержащего низкочастотные составляющие) с параметрически декодированным центральным каналом (содержащим средне- и высокочастотные составляющие) звукового сигнала, принимаемого декодером, правого переднего выходного канала слепого повышающего микшера (содержащего низкочастотные составляющие) с параметрически декодированным правым передним каналом (содержащим средне- и высокочастотные составляющие) звукового сигнала, а также правого выходного канала окружающего звука слепого повышающего микшера с параметрически декодированным правым каналом окружающего звука звукового сигнала, принимаемого декодером.

В типовом варианте осуществления декодера согласно изобретению воссоединение декодированного низкочастотного содержимого кодированного звукового сигнала с параметрически декодированным средне- и высокочастотным содержимым сигнала выполняется в частотной области (например, в звене 40 декодера на фиг. 3), а затем к каждому воссоединенному каналу (например, в звене 40 декодера на фиг. 3) применяется одиночное преобразование частотной области во временную область для формирования полностью декодированного сигнала во временной области. В альтернативном варианте декодер согласно изобретению выполнен с возможностью осуществления такого воссоединения во временной области посредством обратного преобразования низкочастотных составляющих с кодированной формой сигнала с применением первого преобразования, обратного преобразования параметрически декодированных средне- и высокочастотных составляющих с применением второго преобразования, а затем суммирования результатов.

В примерном варианте осуществления настоящего изобретения система на фиг. 2 выполнена с возможностью осуществления E-AC-3 кодирования 5.1-канального входного звукового сигнала, указывающего на аплодисменты публики, в некоторой степени предполагая, что доступная битовая скорость передачи данных (для передачи кодированного выходного сигнала) находится в диапазоне от 192 кбит/с до битовой скорости передачи данных, которая существенно меньше чем 192 кбит/с (например, 96 кбит/с). Следующие примерные вычисления битовых затрат предполагают, что такая система работает для кодирования многоканального входного сигнала, который указывает на аплодисменты публики и имеет пять полнодиапазонных каналов, и что частотные составляющие каждого полнодиапазонного канала входного сигнала имеют по меньшей мере в основном такое же распределение, как функция частоты. Примерные вычисления битовых затрат также предполагают, что система выполняет E-AC-3 кодирование входного сигнала, в том числе посредством выполнения кодирования формы сигнала на частотных составляющих, имеющих частоту до 4,6 кГц каждого полнодиапазонного канала входного сигнала, кодирования взаимосвязи каналов на частотных составляющих от 4,6 кГц до 10,2 кГц каждого полнодиапазонного канала входного сигнала и кодирования спектрального расширения на частотных составляющих от 10,2 кГц до 14,8 кГц каждого полнодиапазонного канала входного сигнала. Предполагается, что параметры взаимосвязи (метаданные боковой цепи взаимосвязи), включаемые в кодированный выходной сигнал, потребляют около 1,5 кбит/с на полнодиапазонный канал и что мантиссы и порядки взаимосвязи каналов потребляют приблизительно 25 кбит/с (т.е. приблизительно 1/5 битов от того, как потребляла бы передача полнодиапазонных каналов, предполагая передачу кодированного выходного сигнала с битовой скоростью передачи данных 192 кбит/с). Экономия битов в результате выполнения кодирования взаимосвязи каналов связана с передачей единственного канала (взаимосвязи каналов) мантисс и порядков, а не пяти каналов мантисс и порядков (для частотных составляющих в соответствующем диапазоне).

Таким образом, если система использовалась для понижающего микширования всего звукового содержимого из 5.1 до стерео перед кодированием всех частотных составляющих понижающего микширования (с использованием кодирования формы сигнала на частотных составляющих до 4,6 кГц, кодирования взаимосвязи каналов на частотных составляющих от 4,6 кГц до 10,2 кГц и кодирования спектрально расширения на частотных составляющих от 10,2 кГц до 14,8 кГц каждого полнодиапазонного канала понижающего микширования), то взаимосвязанный канал при этом нуждается в потреблении приблизительно 25 кбит/с для достижения вещательного качества. Таким образом, экономия битов (для реализации взаимосвязи каналов) в результате понижающего микширования будет связана только с исключением параметров взаимосвязи для трех каналов, которым больше не требуются параметры взаимосвязи, что составляет приблизительно 1,5 кбит/с на каждый из трех каналов или приблизительно 4,5 кбит/с в общей сложности. Таким образом, затраты на выполнение взаимосвязи каналов при стереофоническом понижающем микшировании почти такие же (меньше только на приблизительно 4,5 кбит/с), что и при выполнении взаимосвязи каналов на исходных пяти полнодиапазонных каналах входного сигнала.

Выполнение кодирования спектрального расширения на всех пяти полнодиапазонных каналах типового входного сигнала потребовало бы включения параметров (метаданных боковой цепи SPX) спектрального расширения ("SPX") в кодированный выходной сигнал. Это потребует включения в кодированный выходной сигнал приблизительно 3 кбит/с метаданных SPX на полнодиапазонный канал (в общей сложности приблизительно 15 кбит/с для всех пяти полнодиапазонных каналов), по-прежнему предполагая передачу кодированного выходного сигнала с битовой скоростью передачи данных 192 кбит/с.

Таким образом, если система использовалась для понижающего микширования пяти полнодиапазонных каналов входного сигнала до двух каналов (стереофоническое понижающее микширование) перед кодированием всех частотных составляющих понижающего микширования (с использованием кодирования формы сигнала на частотных составляющих до 4,6 кГц, кодирования взаимосвязи каналов на частотных составляющих от 4,6 кГц до 10,2 кГц и кодирования спектрального расширения на частотных составляющих от 10,2 кГц до 14,8 кГц каждого полнодиапазонного канала понижающего микширования), то экономия битов (для реализации взаимосвязи спектрального расширения) в результате понижающего микширования будет связана только с исключением параметров SPX для трех каналов, которые больше не требуют таких параметров, что составляет приблизительно 3 кбит/с на каждый из трех каналов или приблизительно 9 кбит/с в общей сложности.

Затраты на кодирование взаимосвязи и SPX в примере обобщены ниже в таблице 1.

Таблица 1 (затраты на кодирования взаимосвязи и спектрального расширения для 5 3 и 2 каналов)
Часть Затраты на 5.1-канальный входной звуковой сигнал при 192 кбит/с Расчетные затраты для аналогичного качества при кодировании 3/0 понижающего микширования Расчетные затраты для аналогичного качества при кодировании 2/0 понижающего микширования
Порядки взаимосвязанных каналов 5 5 5
Мантиссы взаимосвязанных каналов 20 20 20
Метаданные взаимосвязи 7,5 4,5 3
Метаданные SPX 15 9 6
Всего 47,5 кбит/с 38,5 кбит/с 34 кбит/с
Экономия понижающего микширования в сравнении с 5 каналами нет данных 9 кбит/с 13,5 кбит/с

Как видно из таблицы 1, полное понижающее микширование 5.1-канального входного сигнала на входе до 3/0 понижающего микширования (трех полнодиапазонных каналов) перед кодированием экономит только 9 кбит/с (в частотных диапазонах взаимосвязи и спектрального расширения), а полное понижающее микширование в 5.1-канального входного сигнала на входе 2/0 понижающего микширования (двух полнодиапазонных каналов) перед кодированием экономит только 13.5 кбит/с в частотных диапазонах взаимосвязи и спектрального расширения. Конечно, каждое такое понижающее микширование также уменьшило бы количество битов, необходимое для кодирования формы сигнала низкочастотных составляющих (имеющих частоту, которая ниже минимальной частоты для кодирования каналов) понижающего микширования, но при затратах пространственного сворачивания.

Авторы установили, что поскольку битовые затраты выполнения кодирования взаимосвязи и кодирования спектрального расширения нескольких каналов (например, пяти, трех или двух каналов, как в приведенном выше примере) являются аналогичными, то желательно кодировать столько каналов многоканального звукового сигнала, насколько это возможно, с параметрическим кодированием (например, кодированием взаимосвязи и кодированием спектрального расширения, как в приведенном выше примере). Таким образом, в типовых вариантах осуществления изобретения происходит понижающее микширование только низкочастотных составляющих (ниже минимальной частоты для кодирования каналов) каналов (т.е. некоторых или всех каналов) многоканального входного сигнала, подлежащего кодированию, и выполняется кодирование формы сигнала на каждом канале понижающего микширования, а также выполняется параметрическое кодирование (например, кодирование взаимосвязи и кодирование спектрального расширения) на верхних частотных составляющих (выше минимальной частоты для параметрического кодирования) каждого исходного канала входного сигнала. Это экономит большое количество битов посредством удаления порядков и мантисс дискретных каналов из кодированного выходного сигнала при сведении к минимуму пространственного сворачивания, благодаря наличию параметрически кодированной версии высокочастотного содержимого всех исходных каналов входного сигнала.

Сравнение битовых затрат и экономии, обеспечиваемой двумя вариантами осуществления изобретения, по сравнению с общепринятым способом выполнения E-AC-3 кодирования 5.1-канального сигнала, описанным со ссылкой на приведенный выше пример, является следующим.

Общие затраты общепринятого E-AC-3 кодирования 5.1-канального сигнала составляют 172,5 кбит/с, которые состоят из 47,5 кбит/с, просуммированных в левой колонке таблицы 1 (для параметрического кодирования высокочастотного содержимого, выше 4,6 кГц, входного сигнала), плюс 25 кбит/с для пяти каналов порядков (в результате кодирования формы сигнала низкочастотного содержимого, ниже 4,6 кГц, каждого канала входного сигнала), плюс 100 кбит/с для пяти каналов мантисс (в результате кодирования формы сигнала низкочастотного содержимого каждого канала входного сигнала).

Общие затраты на кодирование 5.1-канального входного сигнала в соответствии с вариантом осуществления изобретения, в котором формируется 3-канальное понижающее микширование низкочастотных составляющих (ниже 4,6 кГц) пяти полнодиапазонных каналов входного сигнала и в котором формируется Е-АС-3 совместимый кодированный выходной сигнал (в том числе посредством кодирования формы сигнала понижающего микширования и параметрического кодирования высокочастотных составляющих каждого исходного полнодиапазонного канала входного сигнала) составляют 122,5 кбит/с, которые состоят из 47,5 кбит/с, просуммированных в левой колонке таблицы 1 (для параметрического кодирования высокочастотного содержимого, выше 4,6 кГц, для каждого канала входного сигнала), плюс 15 кбит/с для трех каналов порядков (в результате кодирования формы сигнала низкочастотного содержимого каждого канала понижающего микширования), плюс 60 кбит/с для трех каналов мантисс (в результате кодирования формы сигнала низкочастотного содержимого каждого канала понижающего микширования). Это представляет экономию 50 кбит/с относительно общепринятого способа. Данная экономия обеспечивает возможность передачи кодированного выходного сигнала (с качеством, эквивалентным для качества общепринятого кодированного выходного сигнала) при битовой скорости передачи данных 142 кбит/с вместо 192 кбит/с, которая потребовалась бы для передачи общепринятого кодированного выходного сигнала.

Ожидается, что при фактической реализации способа согласно изобретению, описанного в предыдущем абзаце, параметрическое кодирование высокочастотного (выше 4,6 кГц) содержимого входного сигнала потребует несколько меньше чем 7,5 кбит/с, указанных в таблице 1, для метаданных параметра взаимосвязи и 15 кбит/с, указанных в таблице 1, для метаданных параметра SPX в связи с максимальным разделением времени данных с нулевыми значениями в беззвучных каналах. Таким образом, такая фактическая реализация будет обеспечивать экономию, которая несколько больше чем 50 кбит/с, по отношению к общепринятому способу.

Аналогичным образом, общие затраты на кодирование 5.1-канального сигнала в соответствии с вариантом осуществления изобретения, в котором формируется 2-канальное понижающее микширование низкочастотных составляющих (ниже 4,6 кГц) пяти полнодиапазонных каналов входного сигнала и в котором затем формируется E-AC-3 совместимый кодированный выходной сигнал (в том числе посредством кодирования формы сигнала понижающего микширования и параметрического кодирования высокочастотных составляющих каждого исходного полнодиапазонного канала входного сигнала) составляют 102,5 кбит/с, которые состоят из 47,5 кбит/с, просуммированных в левой колонке таблицы 1 (для параметрического кодирования высокочастотного содержимого, выше 4,6 кГц, входного сигнала), плюс 10 кбит/с для двух каналов порядков (в результате кодирования формы сигнала низкочастотного содержимого каждого канала понижающего микширования), плюс 45 кбит/с для двух каналов мантисс (в результате кодирования формы сигнала низкочастотного содержимого каждого канала понижающего микширования). Это представляет экономию 70 кбит/с относительно общепринятого способа. Данная экономия обеспечивает возможность передачи кодированного выходного сигнала (с качеством, эквивалентным для качества традиционно кодированного выходного сигнала) при битовой скорости передачи данных 122 кбит/с вместо 192 кбит/с, которые потребовались бы для передачи традиционно кодированного выходного сигнала.

Ожидается, что при фактической реализации способа согласно изобретению, описанного в предыдущем абзаце, параметрическое кодирование высокочастотного (выше 4,6 кГц) содержимого входного сигнала потребует несколько меньше чем 7,5 кбит/с, указанных в таблице 1, для метаданных параметра взаимосвязи и 15 кбит/с, указанных в таблице 1, для метаданных параметра SPX из-за максимального разделения времени данных с нулевыми значениями в беззвучных каналах. Таким образом, такая фактическая реализация будет обеспечивать экономию, которая несколько больше чем 70 кбит/с по отношению к традиционному способу.

В некоторых вариантах осуществления способ кодирования согласно изобретению реализует кодирование "улучшенной взаимосвязи" в том смысле, что низкочастотные составляющие, к которым применяется понижающее микширование, а затем применяется кодирование формы сигнала, имеют пониженную (ниже, чем обычно) максимальную частоту (например, 1,2 кГц вместо обычной минимальной частоты (3,5 кГц или 4.6 кГц в общепринятых E-AC-3 кодерах)), выше которой выполняется взаимосвязь каналов, а ниже которой выполняется кодирование формы сигнала входного звукового содержимого. В таких вариантах осуществления частотные составляющие входного звукового сигнала подвергаются кодированию взаимосвязи каналов в более широком, чем обычно, диапазоне частот (например, от 1,2 кГц до 10 кГц или от 1,2 кГц до 10,2 кГц). Кроме того, в таких вариантах осуществления параметры взаимосвязи (параметры уровня), которые включены в кодированный выходной сигнал с кодированным звуковым содержимым в результате кодирования канала, могут разбиваться на подгруппы иначе (способом, который будет очевиден специалистам в данной области техники), чем в случае, если бы только частотные составляющие в типичном (более узком) диапазоне подвергались кодированию взаимосвязи каналов.

Варианты осуществления изобретения, которые реализуют кодирование улучшенной взаимосвязи, могут быть целесообразными, поскольку они, как правило, передают нулевые порядки (в кодированном выходном сигнале) для частотных составляющих, имеющих частоту, которая меньше, чем минимальная частота для кодирования взаимосвязи каналов, и снижение этой минимальной частоты (посредством реализации кодирования улучшенной взаимосвязи), таким образом, снижает общее количество неиспользуемых битов (нулевых битов), включаемых в кодированный выходной сигнал, и обеспечивает увеличенную вместимость (когда кодированный сигнал декодируется и представляется) только при небольшом увеличении затрат битовой скорости передачи данных.

Как было отмечено выше, в некоторых вариантах осуществления изобретения низкочастотные составляющие первого подмножества каналов входного сигнала (например, L, С и R каналы, показанные на фиг. 2) выбраны в качестве понижающего микширования, которое подвергается кодированию формы сигнала, и низкочастотные составляющие каждого канала второго подмножества каналов входного сигнала (как правило, каналов окружающего звука, например Ls и Rs каналов, показанных на фиг. 2) установлены на ноль (и могут также подвергаться кодированию формы сигнала). В некоторых таких вариантах осуществления, в которых кодированный звуковой сигнал, формируемый в соответствии с настоящим изобретением, совместим со стандартом Е-AC-3, даже в том случае, если только низкочастотное звуковое содержимое первого подмножества каналов кодированного сигнала в формате E-AC-3 полезно, низкочастотное звуковое содержимое с кодированной формой сигнала (и низкочастотное звуковое содержимое второго подмножества каналов кодированного сигнала в формате E-AC-3 бесполезно, "беззвучное" звуковое содержимое с кодированной формой сигнала), полное множество каналов (как первое, так и второе подмножество) должно быть отформатировано и передано в виде сигнала в формате E-AC-3. Например, левый и правый окружающие каналы будут присутствовать в кодированном сигнале формата E-AC-3, но их низкочастотное содержимое будет беззвучным, что требует передачи некоторых служебных сигналов. "Беззвучные" каналы (соответствующие вышеуказанному второму подмножеству каналов) могут настраиваться в соответствии со следующими принципами сведения к минимуму таких служебных сигналов.

Переключатели блоков традиционно появляются в каналах кодированного сигнала в формате Е-AC-3, которые указывают на неустановившиеся сигналы, и эти переключатели блоков приводят к разделению (в Е-AC-3 декодере) блоков MDCT содержимого с кодированной формой сигнала такого канала на большее количество более мелких блоков (которые затем подвергаются декодированию формы сигнала), и было бы отключено параметрическое декодирование (взаимосвязи каналов и спектрального расширения) высокочастотного содержимого такого канала. Сигнализация переключателя блока в беззвучном канале (канале, включающем "беззвучное" низкочастотное содержимое) потребовала бы больше служебных сигналов, а также предотвращала бы параметрическое декодирование высокочастотного содержимого (с частотой выше минимальной частоты "декодирования взаимосвязи каналов") беззвучного канала. Таким образом, переключатели блоков для каждого беззвучного канала кодированного сигнала в формате Е-AC-3, формируемого в соответствии с типовыми вариантами осуществления настоящего изобретения, должны быть отключены.

Аналогичным образом, общепринятая обработка AHT и TPNP (иногда выполняемая при работе традиционного E-AC-3 декодера) не дает никакой выгоды при декодировании беззвучного канала кодированного сигнала в формате Е-АС-3, формируемого в соответствии с вариантом осуществления настоящего изобретения. Таким образом, обработка AHT и TPNP предпочтительно отключается во время декодирования каждого такого беззвучного канала кодированного сигнала в формате E-AC-3.

Параметр dithflag, стандартно включенный в канал кодированного сигнала в формате Е-AC-3, указывает E-AC-3 декодеру, восстанавливать ли мантиссы (в канале), в которые были распределены нулевые биты кодером со случайным шумом. Поскольку каждый беззвучный канал кодированного сигнала в формате Е-АС-3, формируемого в соответствии с вариантом осуществления, предназначен быть действительно беззвучным, то dithflag для каждого такого беззвучного канала должен быть установлен в ноль при формировании кодированного сигнала в формате Е-АС-3. В результате мантиссы (в каждом таком беззвучном канале), в которые распределяются нулевые биты, не будут восстановлены с применением шума во время декодирования.

Параметр стратегии порядков, стандартно включенный в канал кодированного сигнала в формате Е-AC-3, используется в E-AC-3 декодере для управления разрешением по времени и частоте порядков в канале. Для каждого беззвучного канала кодированного сигнала в формате Е-AC-3, формируемого в соответствии с вариантом осуществления, предпочтительно выбирается стратегия порядков, которая сводит к минимуму затраты передачи для порядков. Стратегия порядков, которая достигает этого, известна как стратегия «D45», и она включает один порядок на четыре элемента разрешения по частоте для первого блока кодированного фрейма (остальные блоки фрейма повторно используют показатели для предыдущих блоков).

Одной из проблем с некоторыми вариантами осуществления способа кодирования согласно изобретению, который реализован в частотной области, является то, что понижающее микширование (низкочастотного содержимого каналов входного сигнала) могло бы насытиться при преобразовании обратно во временную область, и не существует способа предсказать, когда это произойдет с помощью исключительно анализа в частотной области. Эта проблема затрагивается в некоторых таких вариантах осуществления (например, в некоторых, в которых реализуют E-AC-3 кодирование) посредством имитационного моделирования понижающего микширования во временной области (перед его фактическим формированием в частотной области), чтобы оценить, будет ли происходить ограничение. Традиционный пиковый ограничитель может применяться для вычисления масштабных коэффициентов, которые затем применяются ко всем целевым каналам в понижающем микшировании. Только подвергнутые понижающему микшированию каналы ослабляются посредством масштабных коэффициентом, предотвращающих ограничение. Например, в понижающем микшировании, в котором содержимое левого и левого каналов окружающего звука входного сигнала подвергается понижающему микшированию в левый канал понижающего микширования, а содержимое правого и правого каналов окружающего звука входного сигнала подвергается понижающему микшированию в правый канал понижающего микширования, центральный канал не может масштабироваться, так как он не является исходным или целевым каналом в понижающем микшировании. После такого понижающего микширования была применена защита ограничения; ее действие может компенсироваться посредством общепринятой защиты E-AC-3 DRC/понижающего микширования.

Другие аспекты настоящего изобретения предусматривают кодер, выполненный с возможностью исполнения любого варианта осуществления способа кодирования согласно изобретению для формирования кодированного звукового сигнала в ответ на многоканальный входной звуковой сигнал (например, в ответ на аудиоданные, указывающие на многоканальный входной звуковой сигнал), декодер, выполненный с возможностью декодировать такой кодированный сигнал, и систему, содержащую такой кодер и такой декодер. Система на фиг. 4 является примером такой системы. Система на фиг. 4 содержит кодер 90, который выполнен с возможностью (например, запрограммирован) исполнения любого варианта осуществления способа кодирования согласно изобретению для формирования кодированного звукового сигнала в ответ на аудиоданные (указывающие на многоканальный входной звуковой сигнал), подсистему 91 передачи и декодер 92. Подсистема 91 передачи выполнена с возможностью хранения кодированного звукового сигнала (например, для хранения данных, указывающих на кодированный звуковой сигнал), формируемого кодером 90, и/или передачи кодированного звукового сигнала. Декодер 92 соединен и выполнен с возможностью (например, запрограммирован) приема кодированного звукового сигнала (или данных, указывающих на кодированный звуковой сигнал) от подсистемы 91 (например, посредством считывания или осуществления выборки таких данных из запоминающего устройства в подсистеме 91 или приема такого кодированного звукового сигнала, который был передан подсистемой 91) и декодирования кодированного звукового сигнала (или данных, указывающих на него). Декодер 92, как правило, выполнен с возможностью формирования и вывода (например, в систему представления данных) декодированного звукового сигнала, указывающего на звуковое содержимое исходного многоканального входного сигнала.

В некоторых вариантах осуществления изобретение представляет собой аудиокодер, выполненный с возможностью формирования кодированного звукового сигнала посредством кодирования многоканального входного звукового сигнала. Кодер содержит:

подсистему кодирования (например, элементы 22, 23, 24, 26, 27 и 28 на фиг. 2), выполненную с возможностью формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов входного сигнала, кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым подвергнутые понижающему микшированию данные с кодированной формой сигнала, указывающие на звуковое содержимое понижающего микширования, а также выполнения параметрического кодирования среднечастотных составляющих и высокочастотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные, указывающие на среднечастотные составляющие и высокочастотные составляющие указанного каждого канала входного сигнала; и

подсистему форматирования (например, элемент 30 на фиг. 2), подсоединенную для и выполненную с возможностью формирования кодированного звукового сигнала в ответ на подвергнутые понижающему микшированию данные с кодированной формой сигнала и параметрически кодированные данные, так что кодированный звуковой сигнал указывает на указанные подвергнутые понижающему микшированию данные с кодированной формой сигнала и указанные параметрически кодированные данные.

В некоторых таких вариантах осуществления подсистема кодирования выполнена с возможностью выполнения (например, в элементе 22 на фиг. 2) преобразования из временной области в частотную область на входном сигнале для формирования данных в частотной области, включающих низкочастотные составляющие по меньшей мере некоторых каналов входного сигнала, а также среднечастотные составляющие и высокочастотные составляющие указанного каждого канала входного сигнала.

В некоторых вариантах осуществления изобретение представляет собой аудиодекодер, выполненный с возможностью декодирования кодированного звукового сигнала (например, сигнала 31 на фиг. 2 или фиг. 3), указывающего на данные с кодированной формой сигнала и параметрически кодированные данные, где кодированный звуковой сигнал был сформирован посредством формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов многоканального входного звукового сигнала, имеющего N каналов, где N - целое число, кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым данные с кодированной формой сигнала таким образом, что указанные данные с кодированной формой сигнала указывают на звуковое содержимое понижающего микширования, выполнения параметрического кодирования на среднечастотных составляющих и высокочастотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные таким образом, что указанные параметрически кодированные данные указывают на среднечастотные составляющие и высокочастотные составляющие указанного каждого канала входного сигнала, и формирования кодированного звукового сигнала в ответ на данные с кодированной формой сигнала и параметрически кодированные данные. В данных вариантах осуществления декодер содержит:

первую подсистему (например, элемент 32 на фиг. 3), выполненную с возможностью извлечения данных с кодированной формой сигнала и параметрически кодированных данных из кодированного звукового сигнала; и

вторую подсистему (например, элементы 34, 36, 37, 38 и 40 на фиг. 3), подсоединенную для и выполненную с возможностью осуществления декодирования формы сигнала на данных с кодированной формой сигнала, извлеченных первой подсистемой для формирования первого множества восстановленных частотных составляющих, указывающих на низкочастотное звуковое содержимое каждого канала понижающего микширования, а также для осуществления параметрического декодирования параметрически кодированных данных, извлеченных первой подсистемой для формирования второго множества восстановленных частотных составляющих, указывающих на средне- и высокочастотное звуковое содержимое каждого канала многоканального входного звукового сигнала.

В некоторых таких вариантах осуществления вторая подсистема декодера также выполнена с возможностью формирования N каналов декодированных данных в частотной области, включающих посредством объединения (например, в элементе 40 на фиг. 3) первого множества восстановленных частотных составляющих и второго множества восстановленных частотных составляющих, так что каждый канал декодированных данных в частотной области указывает на средне- и высокочастотное звуковое содержимое другого из каналов многоканального входного звукового сигнала, и каждое из по меньшей мере подмножества каналов декодированных данных в частотной области указывает на низкочастотное звуковое содержимое многоканального входного звукового сигнала.

В некоторых вариантах осуществления вторая подсистема декодера выполнена с возможностью осуществления (например, в элементе 40 на фиг. 3) преобразования из частотной области во временную область на каждом из каналов декодированных данных в частотной области для формирования N-канального декодированного звукового сигнала во временной области.

Другой аспект настоящего изобретения представляет собой способ (например, способ, выполняемый декодером 92 на фиг. 4 или декодером на фиг. 3) декодирования кодированного звукового сигнала, который был сформирован в соответствии с вариантом осуществления способа кодирования согласно изобретению.

Изобретение может быть реализовано в аппаратных средствах, аппаратно-программных средствах, или программных средствах, или сочетании обоих (например, как программируемая логическая матрица). Если не указано иное, алгоритмы или процессы, включенные как часть изобретения, не связаны неотъемлемо с любым конкретным компьютером или другим устройством. В частности, различные машины общего назначения могут использоваться с программами, написанными в соответствии с идеями данной заявки, или может быть более удобно строить более специализированное устройство (например, интегральные микросхемы) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или нескольких компьютерных программах, выполняющихся в одной или нескольких программируемых вычислительных системах (например, вычислительной системе, которая реализует кодер на фиг. 2 или декодер на фиг. 3), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (включая энергозависимое и энергонезависимое запоминающее устройство и/или запоминающие элементы), по меньшей мере одно устройство ввода или порт и по меньшей мере одно устройство вывода или порт. Программный код применяется к входным данным для выполнения функций, описанных в данной заявке, и формирования выходной информации. Выходная информация известным образом применяется к одному или нескольким устройствам вывода.

Каждая такая программа может быть реализована на любом требуемом языке программирования (включая машинный, ассемблерный или высокоуровневый процедурный, логический или объектно-ориентированный язык программирования) для поддержки связи с вычислительной системой. В любом случае язык может быть транслируемым или интерпретируемым языком.

Например, при реализации посредством последовательностей команд компьютерного программного обеспечения различные функции и этапы вариантов осуществления изобретения могут быть реализованы посредством многопоточных последовательностей команд программного обеспечения, работающих в соответствующих аппаратных средствах цифровой обработки сигнала; в этом случае различные устройства, этапы и функции вариантов осуществления могут соответствовать частям программных команд.

Каждая такая компьютерная программа предпочтительно хранится на или загружается на носитель или устройство хранения данных (например, твердотельную память или носитель или магнитный, или оптический носитель), считываемое программируемым компьютером общего или специального назначения для настройки и функционирования компьютера, когда носители или устройство хранения данных считываются вычислительной системой для выполнения процедур, описанных в данной заявке. Система согласно изобретению также может быть реализована в виде машиночитаемого носителя данных, предусматривающего (т.е. хранящего) компьютерную программу, где носитель данных так настроен, что вызывает работу вычислительной системы в конкретном и предопределенном порядке для выполнения функций, описанных в данной заявке.

Был описан ряд вариантов осуществления изобретения. Тем не менее следует понимать, что могут быть выполнены различные модификации без отступления от сущности и объема настоящего изобретения. Возможны многочисленные модификации и видоизменения настоящего изобретения в свете идей, изложенных выше. Следует понимать, что в пределах объема прилагаемой формулы изобретения изобретение может быть осуществлено иначе, чем конкретно описано в настоящей заявке.

1. Способ кодирования многоканального входного звукового сигнала, содержащего низкочастотные составляющие и высокочастотные составляющие, при этом указанный способ включает этапы: (a) формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов входного сигнала; (b) кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым подвергнутые понижающему микшированию данные с кодированной формой сигнала, указывающие на звуковое содержимое понижающего микширования; (c) выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные, указывающие на указанные по меньшей мере некоторые из верхних частотных составляющих указанного каждого канала входного сигнала; и (d) формирования кодированного звукового сигнала, указывающего на подвергнутые понижающему микшированию данные с кодированной формой сигнала и параметрически кодированные данные.

2. Способ по п. 1, отличающийся тем, что кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

3. Способ по п. 1, отличающийся тем, что верхние частотные составляющие содержат среднечастотные составляющие и высокочастотные составляющие, при этом этап (c) включает этапы: выполнения кодирования взаимосвязи каналов среднечастотных составляющих; и выполнения кодирования спектрального расширения высокочастотных составляющих.

4. Способ по п. 3, отличающийся тем, что низкочастотные составляющие имеют частоты, которые не больше, чем максимальное значение F1 в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц; среднечастотные составляющие имеют частоты f в диапазоне F1 <f≤ F2, где F2 находится в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц; и высокочастотные составляющие имеют частоты f в диапазоне F2 <f≤ F3, где F3 находится в диапазоне от приблизительно 10,2 кГц до приблизительно 18 кГц.

5. Способ по п. 4, отличающийся тем, что кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

6. Способ по п. 1, отличающийся тем, что входной сигнал имеет число N полнодиапазонных звуковых каналов, понижающее микширование имеет менее N небеззвучных каналов, а этап (a) включает этап замены низкочастотных составляющих по меньшей мере одного из полнодиапазонных звуковых каналов входного сигнала нулевыми значениями.

7. Способ по п. 1, отличающийся тем, что входной сигнал имеет пять полнодиапазонных звуковых каналов, понижающее микширование имеет три небеззвучных канала, а этап (a) включает этап замены низкочастотных составляющих двух полнодиапазонных звуковых каналов входного сигнала нулевыми значениями.

8. Способ по п. 1, отличающийся тем, что кодирование сжимает входной сигнал таким образом, что кодированный звуковой сигнал содержит меньше битов, чем указанный входной сигнал.

9. Аудиокодер, выполненный с возможностью формирования кодированного звукового сигнала посредством кодирования многоканального входного звукового сигнала, содержащего низкочастотные составляющие и верхние частотные составляющие, при этом указанный кодер содержит: подсистему кодирования, выполненную с возможностью формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов входного сигнала; кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым подвергнутые понижающему микшированию данные с кодированной формой сигнала, указывающие на звуковое содержимое понижающего микширования; а также для выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные, указывающие на указанные по меньшей мере некоторые из верхних частотных составляющих указанного каждого канала входного сигнала; и подсистему форматирования, подсоединенную для и выполненную с возможностью формирования кодированного звукового сигнала в ответ на подвергнутые понижающему микшированию данные с кодированной формой сигнала и параметрически кодированные данные, так что кодированный звуковой сигнал указывает на указанные подвергнутые понижающему микшированию данные с кодированной формой сигнала и указанные параметрически кодированные данные.

10. Кодер по п. 9, отличающийся тем, что подсистема кодирования выполнена с возможностью выполнения преобразования из временной области в частотную область входного сигнала для формирования данных в частотной области, включающих низкочастотные составляющие по меньшей мере некоторых каналов входного сигнала и верхние частотные составляющие указанного каждого канала входного сигнала.

11. Кодер по п. 9, отличающийся тем, что верхние частотные составляющие включают среднечастотные составляющие и высокочастотные составляющие, и подсистема кодирования выполнена с возможностью формирования параметрически кодированных данных посредством выполнения кодирования взаимосвязи каналов среднечастотных составляющих и кодирования спектрального расширения высокочастотных составляющих.

12. Кодер по п. 11, отличающийся тем, что низкочастотные составляющие имеют частоты, которые не больше чем максимальное значение F1 в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц; среднечастотные составляющие имеют частоты f в диапазоне F1 <f≤ F2, где F2 находится в диапазоне от приблизительно 8 кГц до приблизительно 12,5 кГц; и высокочастотные составляющие имеют частоты f в диапазоне F2 <f≤ F3, где F3 находится в диапазоне от приблизительно 10,2 кГц до приблизительно 18 кГц.

13. Кодер по п. 12, отличающийся тем, что кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

14. Кодер по п. 9, отличающийся тем, что входной сигнал имеет по меньшей мере два полнодиапазонных звуковых канала, а подсистема кодирования выполнена с возможностью формирования понижающего микширования посредством замены низкочастотных составляющих по меньшей мере одного полнодиапазонного звукового канала входного сигнала нулевыми значениями.

15. Кодер по п. 9, отличающийся тем, что указанный кодер выполнен с возможностью формирования кодированного звукового сигнала таким образом, что указанный кодированный звуковой сигнал содержит меньше битов, чем входной сигнал.

16. Кодер по п. 9, отличающийся тем, что кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

17. Кодер по п. 9, отличающийся тем, что указанный кодер представляет собой цифровой сигнальный процессор.

18. Способ декодирования кодированного звукового сигнала, указывающего на данные с кодированной формой сигнала и параметрически кодированные данные, где кодированный звуковой сигнал формируют посредством формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов многоканального входного звукового сигнала; кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым данные с кодированной формой сигнала таким образом, что указанные данные с кодированной формой сигнала указывают на звуковое содержимое понижающего микширования; выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные таким образом, что указанные параметрически кодированные данные указывают на указанные по меньшей мере некоторые верхние частотные составляющие указанного каждого канала входного сигнала; и формирования кодированного звукового сигнала в ответ на данные с кодированной формой сигнала и параметрически кодированные данные; при этом указанный способ включает этапы: (a) извлечения данных с кодированной формой сигнала и параметрически кодированных данных из кодированного звукового сигнала; (b) выполнения декодирования формы сигнала данных с кодированной формой сигнала, извлеченных на этапе (a), для формирования первого множества восстановленных частотных составляющих, указывающих на низкочастотное звуковое содержимое каждого канала понижающего микширования; и (c) выполнение параметрического декодирования параметрически кодированных данных, извлеченных на этапе (a), для формирования второго множества восстановленных частотных составляющих, указывающих на по меньшей мере некоторое звуковое содержимое с верхними частотами каждого канала многоканального входного звукового сигнала.

19. Способ по п. 18, отличающийся тем, что многоканальный входной звуковой сигнал содержит N каналов, где N - целое число, и указанный способ также включает этап: (d) формирования N каналов декодированных данных в частотной области, в том числе посредством объединения указанного первого множества восстановленных частотных составляющих и указанного второго множества восстановленных частотных составляющих, так что каждый канал декодированных данных в частотной области указывает на среднечастотное и высокочастотное звуковое содержимое другого из каналов многоканального входного звукового сигнала, и каждый из по меньшей мере подмножества каналов декодированных данных в частотной области указывает на низкочастотное звуковое содержимое многоканального входного звукового сигнала.

20. Способ по п. 19, отличающийся тем, что также включает этап выполнения преобразования из частотной области во временную область каждого из каналов декодированных данных в частотной области для формирования N-канального декодированного звукового сигнала во временной области.

21. Способ по п. 18, отличающийся тем, что кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

22. Способ по п. 18, отличающийся тем, что этап (c) включает этапы: выполнения декодирования взаимосвязи каналов по меньшей мере некоторых из параметрически кодированных данных, извлеченных на этапе (a); и выполнения декодирования спектрального расширения по меньшей мере некоторых параметрически кодированных данных, извлеченных на этапе (a).

23. Способ по п. 18, отличающийся тем, что первое множество восстановленных частотных составляющих имеет частоты, которые меньше или равны максимальному значению F1 в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц.

24. Аудиодекодер, выполненный с возможностью декодирования кодированного звукового сигнала, указывающего на данные с кодированной формой сигнала и параметрически кодированные данные, где кодированный звуковой сигнал сформирован посредством формирования понижающего микширования низкочастотных составляющих по меньшей мере некоторых каналов многоканального входного звукового сигнала, содержащего N каналов, где N - целое число; кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым данные с кодированной формой сигнала таким образом, что указанные данные с кодированной формой сигнала указывают на звуковое содержимое понижающего микширования; выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные таким образом, что указанные параметрически кодированные данные указывают на указанные по меньшей мере некоторые верхние частотные составляющие указанного каждого канала входного сигнала; и формирования кодированного звукового сигнала в ответ на данные с кодированной формой сигнала и параметрически кодированные данные, при этом указанный декодер содержит: первую подсистему, выполненную с возможностью извлечения данных с кодированной формой сигнала и параметрически кодированных данных из кодированного звукового сигнала; и вторую подсистему, подсоединенную для и выполненную с возможностью выполнения декодирования формы сигнала данных с кодированной формой сигнала, извлеченных первой подсистемой, для формирования первого множества восстановленных частотных составляющих, указывающих на низкочастотное звуковое содержимое каждого канала понижающего микширования; а также выполнения параметрического декодирования параметрически кодированных данных, извлеченных первой подсистемой, для формирования второго множества восстановленных частотных составляющих, указывающих на по меньше мере некоторое звуковое содержимое с верхними частотами каждого канала многоканального входного звукового сигнала.

25. Декодер по п. 24, отличающийся тем, что вторая подсистема также выполнена с возможностью формирования N каналов декодированных данных в частотной области, в том числе посредством объединения указанного первого множества восстановленных частотных составляющих и указанного второго множества восстановленных частотных составляющих таким образом, что каждый канал декодированных данных в частотной области указывает на среднечастотное и высокочастотное звуковое содержимое другого из каналов многоканального входного звукового сигнала, и каждый из по меньшей мере подмножества каналов декодированных данных в частотной области указывает на низкочастотное звуковое содержимое многоканального входного звукового сигнала.

26. Декодер по п. 25, отличающийся тем, что вторая подсистема выполнена с возможностью выполнения преобразования из частотной области во временную область каждого из каналов декодированных данных в частотной области для формирования N-канального декодированного звукового сигнала во временной области.

27. Декодер по п. 24, отличающийся тем, что кодированный звуковой сигнал представляет собой кодированный звуковой сигнал в формате E-AC-3.

28. Декодер по п. 24, отличающийся тем, что вторая подсистема выполнена с возможностью выполнения декодирования взаимосвязи каналов по меньшей мере некоторых параметрически кодированных данных, извлеченных первой подсистемой, а также выполнения декодирования спектрального расширения по меньшей мере некоторых параметрически кодированных данных, извлеченных первой подсистемой.

29. Декодер по п. 24, отличающийся тем, что первое множество восстановленных частотных составляющих имеет частоты, которые меньше или равны максимальному значению F1 в диапазоне от приблизительно 1,2 кГц до приблизительно 4,6 кГц.

30. Декодер по п. 24, отличающийся тем, что указанный декодер представляет собой цифровой сигнальный процессор.



 

Похожие патенты:

Изобретение относится к средствам фильтрации бинауральных воздействий в аудиопотоках и к средствам защиты индивидуального, группового и массового сознания граждан от скрытых вредоносных воздействий в аудиопотоках.

Изобретение относится к обработке звуковых сигналов. Технический результат - повышение точности распознавания звуковых сигналов.

Изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на различные компоненты. Технический результат - повышение точности воспроизведения стереофонического звука.

Изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на различные компоненты, к примеру, различно воспринимаемые компоненты. Технический результат - разложение сигнала с использованием заранее вычисленной частотно-зависимой кривой подобия в качестве эталонной кривой.

Изобретение относится к средствам для усовершенствованной авторской разработки и представления трехмерных аудиоданных. Технический результат заключается в уменьшении вычислительной сложности обработки трехмерного звука.

Изобретение относится к кодированию и декодированию аудиосигнала, в которых звуковые образы для каждого объектного аудиосигнала могут быть локализованы в любой требуемой позиции.

Изобретение относится к средствам кодирования аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения. Технический результат заключается в обеспечении технологии, способной представлять пространственный аудиоконтент независящим от демонстрационного способа методом.

Изобретение относится к системе объемного звука. Технический результат заключается в повышении качества воспроизведения аудио и повышении производительности системы объемного звука.

Описывается бинауральная визуализация многоканального звукового сигнала в бинауральный выходной сигнал (24). Многоканальный звуковой сигнал включает сигнал стерео понижающего микширования (18), в который множество звуковых сигналов микшируется с понижением; и дополнительная информация включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал и второй канал сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта множества звуковых сигналов и информацию о межобъектной взаимной корреляции, описывающую сходство между парами звуковых сигналов множества звуковых сигналов.

Изобретение относится к обработке сигналов в полосе звуковых частот. Технический результат изобретения заключается в обеспечении эффективной скорости передачи звукового сигнала.

Изобретения относятся к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат заключается в повышении отношения сигнал-шум очищенного речевого сигнала.

Изобретение относится к области декодирования аудио. Техническим результатом является исключение случаев, когда компоненты переходных сигналов имеют отрицательные акустические воздействия на выходные сигналы.

Изобретение относится к средствам для обработки аудиоданных и к области техники связи. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к области обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-связанной параметрической информации, которые включены в представление битового потока звукового содержания, и информации о визуализации.

Изобретение относится к средствам, генерирующим представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием объектно-ориентированной параметрической информации и с учетом данных аудиорендеринга.

Изобретение относится к способу кодирования аудио сигнала и средствам для осуществления этого способа. Технический результат изобретения заключается в создании концепции кодирования, позволяющей уменьшить сложность при сопоставимой или даже увеличенной эффективности кодирования.

Изобретение относится к кодеку, поддерживающему переключение между режимом кодирования с преобразованием с подавлением помех дискретизации во временной области и режимом кодирования временной области.

Изобретение относится к области обработки аудиосигнала и аудиокодирования. Технический результат - повышение точности кодирования и декодирования.

Изобретение относится к кодированию аудио-файлов с высоким качеством и низкой частотой следования битов. Технический результат заключается в оптимизации настроек конфигурации для всех канальных элементов одновременно.

Изобретение относится к средствам для кодирования/декодирования временного сегмента аудиосигнала. Технический результат заключается в повышении эффективности кодирования в аудиокодере с преобразованием.

Изобретение относится к вычислительной технике. Технический результат заключается в адаптивном применении низкочастотной коррекции в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, без изменения декодера. Способ кодирования звука, включающий выполнение обнаружения тональности на аудиоданных в частотной области с целью генерирования данных управления коррекцией, указывающих, имеет ли выраженное тональное содержимое каждая низкочастотная полоса набора по меньшей мере из некоторых низкочастотных полос аудиоданных; генерирование предварительного значения маскировки для аудиоданных в полосе для каждой указанной низкочастотной полосы; определение значений маскировки для аудиоданных полосы для каждой из указанных низкочастотных полос, при этом значения маскировки для аудиоданных в каждой указанной низкочастотной полосе, имеющей выраженное тональное содержимое, что указывается данными управления коррекцией, получают путем выполнения низкочастотной коррекции для коррекции предварительного значения маскировки аудиоданных в полосе, и значение маскировки для каждой другой низкочастотной полосы в наборе представляет собой предварительное значение маскировки для аудиоданных полосы. 4 н. и 24 з.п. ф-лы, 7 ил.
Наверх