Микширование входящих информационных потоков и генерация выходящего информационного потока

Авторы патента:

ЛУТЦКИЙ Манфред (DE)

ШНЕЛЛ Маркус (DE)

МУЛТРУС Маркус (DE)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2488896:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к области телекоммуникационных систем. Техническим результатом является осуществление передачи сигналов без ухудшения качества звучания и уменьшение необходимого количества оборудования. Для достижения указанного технического результата используется устройство (500) для микширования множества входящих информационных потоков (510), в котором каждый из входящих информационных потоков (510) содержит фрейм (540) аудио данных в спектральной области, фрейм (540) входящего информационного потока (510), содержащий спектральную информацию для множества спектральных компонентов. Устройство содержит блок обработки данных (520), выполненный так, чтобы сравнивать фреймы (540) множества входящих информационных потоков (510). Блок обработки данных (520) также выполнен так, чтобы определять, основываясь на сравнении, для спектрального компонента выходящего фрейма (550) выходящего информационного потока (530) только один входящий информационный поток (510) из множества входящих информационных потоков (510). Блок обработки данных (520) далее выполнен так, чтобы генерировать выходящий информационный поток (530) путем копирования, по крайней мере, части информации соответствующего спектрального компонента фрейма определенного информационного потока (510), чтобы описать спектральный компонент выходящего фрейма (550) выходящего информационного потока (530). 3 н. и 13 з.п. ф-лы, 14 ил.

Осуществление данного изобретения позволяет выполнять микширование множества входящих потоков информации (данных), чтобы получить выходящий информационный поток путем микширования первого и второго потока соответственно. Выходящий информационный поток может быть, к примеру, использован в области оснащения конференций, в том числе в телекоммуникационных системах.

Во многих областях применения более чем один сигнал необходимо преобразовать таким образом, чтобы из некоторого количества аудио сигналов генерировать один или несколько (сокращенное количество) сигналов, процесс, часто называемый «микшированием».

Процесс микширования аудио сигналов можно таким образом назвать смешением нескольких отдельных аудио сигналов в результативный сигнал. Этот процесс используется, например, при создании музыкальных записей для компакт дисков («монтаж звукозаписи»). В этом случае различные аудио сигналы, исходящие от разных инструментов, а также одного и более вокалистов обычно микшируются в единое целое, песню.

К другим областям применения, где микширование играет важную роль, относятся системы видео и теле конференций. Подобные системы обычно способны осуществлять соединение (коммуникацию) удаленных друг от друга в пространстве участников конференции с помощью центрального сервера, который должным образом микширует входящую видео-аудио информацию зарегистрированных участников и в обратном направлении посылает каждому участнику результативный сигнал. Этот результативный сигнал или выходящий сигнал объединяет сигналы всех остальных участников конференции.

В современных цифровых телекоммуникационных системах приходится сталкиваться с частично противоречащими друг другу целями и задачами. Необходимо учитывать качество реконструированного (воссозданного) аудио сигнала, а также применимость и полезность некоторых техник кодирования и декодирования аудио звука (например, звуков речи в сравнении с обычными звуковыми сигналами и музыкальными сигналами). Следующие аспекты, требующие внимания при проектировании и применении систем конференций, это доступные пропускная способность каналов связи и время запаздывания передачи сигнала.

Например, когда необходимо выбрать между качеством с одной стороны и пропускной способностью с другой, необходимо компромиссное решение. Улучшение качества звука могут быть достигнуто с помощью применения современных кодирующих и декодирующих технологий, таких как ААС-ELD (AAC = Advanced Audio Codec; ELD = Enhanced Low Delay). Однако применение таких современных технологий помимо улучшения качества может привести к серьезным проблемам и сбоям в системах.

Одна из проблем, с которой приходится сталкиваться при любой цифровой передаче сигнала - это необходимое квантование, которого теоретически можно избежать при идеальных условиях в бесшумных аналоговых системах. В результате процесса квантования некоторое количество квантовых шумов неизбежно проникает в преобразуемый (передаваемый) сигнал. Чтобы избежать возможного искажения звучания часто прибегают к увеличению уровня квантования и, таким образом, увеличению разрешения квантования. Это, однако, приводит к увеличению числа параметров сигнала, которые надо передать и, тем самым увеличивает количество передаваемых данных. Другими словами, улучшение качества путем сокращения возможных искажений, вызываемых квантовыми шумами, может при определенных условиях увеличивать количество передаваемых данных и в итоге нарушить лимит пропускной способности передающей системы.

В случае с системами для конференций, проблемы достижения компромиссного соотношения между качеством, доступной пропускной способностью и другими параметрами могут усложняться тем фактом, что обычно должен быть передан более чем один входящий аудио сигнал. Таким образом, должны приниматься во внимание пограничные условия, задаваемые более чем одним аудио сигналом при генерации выходящего сигнала или результирующего сигнала в системе конференций.

Если учитывать дополнительные сложности проведения конференции с низкой задержкой сигнала для осуществления прямой телекоммуникации между участниками конференции без существенных задержек сигнала, что может быть неприемлемым для участников, то это создает еще большие трудности.

При использовании конференц систем для снижения задержки сигнала обычно сокращают количество источников задержки, что, с другой стороны, может привести к проблеме вывода данных за пределы временной области, в которой микширование аудио сигналов может быть достигнуто путем специального введения или добавления соответствующих сигналов.

Обобщая сказанное, можно утверждать, что необходимо аккуратно находить компромисс (баланс) между качеством, доступной пропускной способностью полосы частот и другими параметрами, подходящими для конференц систем для того, чтобы справиться с обработкой сигналов для микширования в реальном времени, уменьшить необходимое количество оборудования, и придерживаться разумных затрат на оборудование и передачу сигналов без ухудшения качества звучания.

Чтобы сократить количество передаваемых данных, современные кодеки аудиосигнала часто используют очень сложные средства (программы) для описания спектральной информации, касающейся спектральных компонентов соответствующего аудио сигнала. Используя такие средства (программы), которые основаны на психоакустических явлениях и проверочных данных, можно достигнуть улучшения компромисса между частично противоречащими параметрами и пограничными условиями, такими как качество реконструированного аудио сигнала из передаваемых данных, сложность вычислений, скорость подачи данных, и другими параметрами.

Примерами таких программ могут быть, например, вытеснение (замещение) персептивных шумов (PNS), временное изменение шумов (TNS) или расщепление (мультипликация) спектральной полосы частот (SBR), и это не полный список. Все эти техники основаны на описании, по крайней мере, части спектральной информации с сокращенным количеством битов так, чтобы, по сравнению с информационным потоком, не основанном на использовании данных программ, большее количество битов могло быть помещено в важные части спектра. Как следствие этого, при сохранении скорости подачи данных ощутимый уровень качества может быть улучшен благодаря использованию данных программ. Естественно, может быть выбран другой компромисс, а именно, сокращение количества битов, передаваемых на каждый фрейм аудио данных при сохранении общего воздействия аудио сигнала. Различные другие компромиссные решения, находящиеся между этими экстремальными вариантами, могут быть также хорошо выполнимы.

Эти программы могут также применяться в области телекоммуникаций.

Однако когда присутствует более двух участников в такой коммуникативной ситуации, может быть очень эффективным использование конференц систем для микширования двух и более потоков информационных данных от двух и более участников. Подобные ситуации возникают как в аудио и телекоммуникациях, так и в видеоконференциях.

Конференц система, работающая в диапазоне частот, описывается, например, в US 2008/0097764 А1, который осуществляет непосредственное микширование в диапазоне частот и, таким образом, обходится без обратного преобразования входящих аудио сигналов назад во временную область.

Однако описанная выше конференц система не принимает во внимание возможности описанных выше программ, которые позволяют осуществлять описание спектральной информации, по крайней мере, одного спектрального компонента в более сжатом виде.

В результате такая конференц система требует дополнительных трансформационных (преобразующих шагов) шагов, чтобы преобразовать аудио сигналы, передаваемые в конференц системе, по крайней мере, до такой степени, чтобы соответствующие аудио сигналы присутствовали в диапазоне частот. Более того, результативный микшированный аудио сигнал необходимо также преобразовать, используя дополнительные программы, описанные выше. Такие преобразования туда и обратно требуют, однако, применения сложных алгоритмов, которые могут привести к сложности вычислений и, например, в случае портативности, к неоправданно энергоемкому применению, к увеличению уровня потребления энергии и, как следствие, к ограниченному оперативному времени (к ограничению времени выполнения).

Эта проблема решается в осуществлении данного изобретения, чтобы предоставить возможность улучшить компромисс между качеством, доступной пропускной способностью полосы частот и другими параметрами, подходящими для конференц систем, или чтобы дать возможность сократить необходимую вычислительную сложность в конференц системе, как это описано выше.

Эта цель достигается устройством согласно пункту 1 или 12, способом микширования множества входящих информационных потоков согласно пунктам 10 или 26, или компьютерной программой согласно пунктам 11 или 27.

Согласно первому аспекту, осуществление данного изобретения основано на обнаружении, что при микшировании множества входящих информационных потоков улучшенный компромисс между вышеупомянутыми параметрами и целями может быть достигнут путем выделения одного входящего информационного потока на основе сравнения и копирования, по крайней мере, части спектральной информации из выделенного входящего информационного потока в выходящий информационный поток.

С помощью копирования, по крайней мере, части спектральной информации с одного входящего информационного потока можно избежать повторного квантования и соответствующего ему шума квантования. В случае спектральной информации, для которой нельзя выделить никакой доминирующий входящий информационный поток, микширование соответствующей спектральной информации в частотном диапазоне может быть выполнено с помощью примера осуществления данного изобретения.

Сравнение может, например, быть основано на психо-акустической модели. Сравнение далее может соотноситься со спектральной информацией, соответствующей общему спектральному компоненту (например, частоте или полосе частот) из, по крайней мере, двух разных входящих информационных потоков. Это может быть также межканальным сравнением. В этом случае сравнение основано на психо-акустической модели, и поэтому может быть описано как межканальная маскировка звука.

Согласно второму аспекту, осуществление данного изобретения основано на открытии, что сложность операций, выполняемых во время микширования первого входящего информационного потока и второго входящего информационного потока, чтобы генерировать выходящий информационный поток, может быть уменьшена, если учитывать контрольные параметры, соотносимые с данными о полезной нагрузке соответствующего входящего информационного потока, в котором контрольные параметры показывают, каким образом данные полезной нагрузки представляют, по крайней мере, часть соответствующей спектральной информации или спектральной области соответствующих аудио сигналов. В случае если контрольные параметры двух входящих информационных потоков идентичны (одинаковы), можно пропустить (не принимать) новое решение о пути спектральной области в соответствующем фрейме выходящего информационного потока, а вместо этого генерирование выходящего информационного потока может основываться на решении, определенно установленном самим кодирующим устройством входящих информационных потоков, то есть на основе его контрольного параметра. В зависимости от способа, показанного контрольными параметрами, может быть также возможно и предпочтительно избежать обратного преобразования соответствующих данных полезной нагрузки назад в другой вид представления спектральной области а, например, в обычный и простой вид с одним спектральным параметром в единицу времени. В последнем случае, прямая передача данных полезной нагрузки для выработки соответствующих данных полезной нагрузки выходящего информационного потока и контрольных параметров, одинаковых с контрольными параметрами первого и второго входящих информационных потоков может быть генерирована «напрямую», то есть «без изменения вида, в котором представлена спектральная область», посредством PNS или сходных параметров, описанных более подробно выше.

Согласно осуществлению данного изобретения, контрольные параметры соотносятся, по крайней мере, с одним конкретным спектральным компонентом. Более того, согласно осуществлению данного изобретения могут выполняться такие операции, когда форматы первого входящего информационного потока и второго входящего информационного потока соответствуют общему временному индексу в отношении соответствующей последовательности фреймов двух входящих информационных потоков.

В случае, когда контрольные параметры первого и второго информационного потоков не идентичны, согласно осуществлению данного изобретения можно выполнять шаг преобразования данных полезной нагрузки одного из фреймов первого и второго входящих информационных потоков, чтобы получить представление данных полезной нагрузки фрейма другого входящего информационного потока. Данные полезной нагрузки выходящего информационного потока могут затем быть генерированы на основании преобразованных данных полезной нагрузки и данных полезной нагрузки двух других потоков. В некоторых случаях, согласно осуществлению данного изобретения, преобразование данных полезной нагрузки фрейма одного из входящих информационных потоков в представление данных полезной нагрузки фрейма второго входящего информационного потока может быть напрямую выполнено без преобразования соответствующего аудио сигнала назад в простой диапазон частот.

Осуществление данного изобретения будет описано далее с учетом следующих фигур.

Фиг.1 показывает блок-схему конференц системы;

Фиг.2 показывает блок-схему конференц системы основанную на основном (главном) аудио ко деке;

Фиг.3 показывает блок-схему конференц-системы, работающей в диапазоне частот с использованием технологии микширования бит потоков;

Фиг.4 показывает схематичный рисунок потоков данных, содержащих множество форматов данных;

Фиг.5 иллюстрирует различные формы спектральных компонентов и спектральных данных или информации;

Фиг.6 иллюстрирует устройство для микширования множества входящих информационных потоков согласно осуществлению данного изобретения более детально;

Фиг.7 иллюстрирует режим работы устройства в Фиг.6 согласно осуществлению данного изобретения;

Фиг.8 показывает блок-схему устройства для микширования множества входящих информационных потоков согласно будущему осуществлению данного изобретения в контексте (работе) конференц-системы;

Фиг.9 показывает упрощенную блок-схему устройства для генерирования выходящего информационного потока согласно осуществлению данного изобретения;

Фиг.10 показывает более подробную блок-схему устройства для генерирования выходящего информационного потока согласно осуществлению данного изобретения;

Фиг.11 показывает блок-схему устройства для генерирования выходящего информационного потока согласно будущему осуществлению данного изобретения в работе конференц-системы;

Фиг.12A иллюстрирует работу устройства по генерированию выходящего информационного потока согласно осуществлению данного изобретения с применением PNS;

Фиг.12B иллюстрирует работу устройства по генерированию выходящего информационного потока согласно осуществлению данного изобретения с применением SBR; и

Фиг.12C иллюстрирует работу устройства по генерированию выходящего информационного потока согласно осуществлению данного изобретения с применением M/S.

С учетом фиг. с 4 по 12C, различия в осуществлении данного изобретения будут описаны подробно. Однако прежде, чем описать данные различия подробнее, учитывая фиг. с 1 по 3, будет дано краткое изложение тех сложностей (проблем) и требований, которые могут представиться важными в рамках работы конференц-систем.

Фиг.1 показывает блок-схему конференц-системы 100, которая также может быть названа как многофункциональное управляющее устройство (a multi-point control unit (MCU)). Как это видно из дальнейшего описания, касающегося функциональности, конференц-система 100, как показано на фиг.1, является системой, работающей во временной области.

Конференц-система 100, как это показано на фиг.1, выполнена так, чтобы получать множество входящих информационных потоков через соответствующий номер входа 110-1, 110-2, 110-3,… из которых на фиг.1 показаны только три. Каждый из входов 110 связан с соответствующим ему декодером 120. Говоря точнее, вход 110-1 для первого входящего информационного потока соединен с первым декодером 120-1, в то время как второй вход 110=2 соединен со вторым декодером 120-2, и третий вход 110-3 соединен с третьим декодером 120-3.

Конференц-система 100 также содержит соответствующие номера сумматоров 130-1, 130-2, 130-3,… из которых снова только три показаны на фиг.1. Каждый из сумматоров соответствует одному из входов 110 в конференц-системе 100. Например, первый сумматор 130-1 соответствует первому входу 110-1, и соответствующему декодеру 120-1.

Каждый из сумматоров 130 соединен с выходами из всех декодеров 120, кроме декодера 120, который соединен со входом 110. Другими словами, первый сумматор 130-1 соединен со всеми декодерами 120, кроме декодера 120-1. Соответственно, второй декодер 130-2 соединен со всеми декодерами 120, кроме второго декодера 120-2.

Каждый из сумматоров 130 также содержит выход, который соединен с одним кодирующим устройством 140. Так, что первый сумматор 130-1 соединен с соответствующим ему выходом на первое кодирующее устройство 140-1. Соответственно, второй и третий сумматоры 130-2, 130-3, также соединены со вторым и третьим кодирующими устройствами 140-2, 140-3, соответственно.

В свою очередь, каждое из кодирующих устройств 140 соединено с соответствующим выходом 150. Другими словами, первое кодирующее устройство, например, соединено с первым выходом 150-1, Второе и третье кодирующие устройства 140-2, 140-3, также соединены со вторым и третьим выходами 150-2, 150-3, соответственно.

С целью описания работы конференц-системы 100, как показано более подробно на фиг.1, фиг.1 также показывает конференц-терминал 160 первого участника. Конференц-терминал 160 может, например, быть цифровьм телефоном (например, ISDN - телефон (ISDN = integrated service digital network)), системой, содержащей встроенную IP- телефонию, или подобным терминалом.

Конференц-терминал 160 содержит кодирующее устройство 170, которое соединено с первым входом 110-1 конференц-системы 100. Конференц-терминал также содержит декодер 180, который соединен с первым выходом 150-1 конференц-системы 100.

Подобные конференц-терминалы 160 могут также находиться на рабочих местах будущих участников конференции. Эти конференц-терминалы не показаны на фиг.1 с целью упрощения схемы. Следует также отметить, что конференц-система 100 и конференц-терминалы 160 не должны физически находиться в непосредственной близости друг от друга. Конференц-терминалы 160 и конференц-система 100 могут находиться на разных рабочих площадках, которые могут, например, соединяться между собой только посредством WAN - технологий (WAN=wide area networks).

Конференц-терминалы 160 могут также содержать или быть подсоединены к дополнителным компонентам, таким как микрофоны, усилители и громкоговорители (колонки) или наушники, чтобы обеспечить возможность обмена аудиосигналами с пользователем более доступным способом. Эти дополнительные компоненты не показаны на фиг.1 с целью упрощения схемы.

Как было отмечено ранее, конференц-система 100, показанная на фиг.1, является системой, работающей во временномй области. Когда, например, первый участник говорит в микрофон (непоказанный на фиг.1), кодирующее устройство 170 конференц-терминала 160 кодирует соответствующий аудиосигнал в соответствующий битовый поток и передает поток битов на первый вход 110-1 конференц-системы 100.

Внутри конференц-системы 100, битовый поток расшифровывается первым декодером 120-1 и преобразуется обратно во временную область. Так как первый декодер 120-1 соединен со вторым и третьим микширующими устройствами 130-2,130-3, аудиосигнал, генерированный от первого участника может быть микширован во временной области путем простого добавления восстановленного аудиосигнала к также восстановленным аудиосигналам от второго и третьего участников, соответственно.

Это также верно для аудиосигналов, исходящих от второго и третьего участников, которые подаются на второй и третий входы 110-2,110-3, и преобразуются вторым и третьим декодером 120=2,120-3 соответственно. Эти восстановленные аудиосигналы второго и третьего участников далее подаются на первое микширующее устройство 130-1, которое, в свою очередь, передает дополнительный аудиосигнал во временную область первого кодирующего устройства 140-1. Кодирующее устройство 140-1 снова кодирует дополнительный (суммированный) аудиосигнал, чтобы сформировать битовый поток и подает его на первый выход 150-1 к конференц-терминалу первого участника 160.

Подобным образом, второе и третье кодирующие устройства 14-2, 140-3 кодируют дополнительные (суммированные) аудиосигналы во временной области, полученные от второго и третьего сумматоров 130-2,130-3 соответственно, и передают кодированные данные назад к соответствующим участникам через второй и третий выходы 150-2, 150-3 соответственно.

Для выполнения непосредственного микширования, аудиосигналы полностью декодируются и дополняются (суммируются) в несжатом виде. После этого, при необходимости уровневая подстройка может быть произведена с помощью сжатия соответствующих выходящих сигналов, чтобы избежать эффектов ограничения сигнала (например, нарушение разрешенного набора параметров). Ограничение может возникнуть, когда отдельные виды параметров превышают или находятся ниже разрешенного набора значений так, что соответствующие параметры срезаются (ограничиваются). В случае с 16-битовым квантованием, которое применяется, например, в CD дисках, доступен набор целочисленных значений от -32768 до -32768 значений на образец.

Чтобы противостоять возможному превышению или снижению параметров сигнала, применяются алгоритмы компрессии (сжатия). Данные алгоритмы ограничивают выход за определенные предельные значения, чтобы сохранить дискретные параметры в рамках разрешенного набора значений.

Во время кодирования аудио данных в конференц системах, таких как конференц-система 100, как показано на фиг.1, должны быть приняты некоторые погрешности, чтобы выполнить микширование в не кодированном (un-encoded) состоянии наиболее легко доступным способом. Более того, скорость передачи данных кодированных аудиосигналов дополнительно ограничивается до меньшего набора передаваемых частот, так как меньшая пропускная способность полосы частот позволяет передавать более низкую дискретную частоту и, тем самым, меньшее количество информации, согласно теореме отсчетов Нейквиста-Шэннона (теорема Котельникова). Теорема Нейквиста-Шэннона утверждает, что частота дискретизации зависит от пропускной способности полосы частот дискретного сигнала и должна быть, по крайней мере, в два раза больше пропускной способности.

Международный союз электросвязи (МСЭ) и его Сектор стандартизации электросвязи (МСЭ-Т) разработали несколько стандартов для мултимедийных конференц-систем. Н.320 определяет стандарт протокола для видеоконференций посредством ISDN. Н.323 определяет стандарт для конференц-систем для сети, использующей пакетную передачу данных (TCP/IP). H.324 определяет стандарты конференц-систем для аналоговых телефонных сетей и систем телерадиокоммуникаций.

Данные стандарты регламентируют не только передачу сигналов, но и кодирование и обработку аудио данных. Управление конференцией производится одним и более серверами, так называемыми серверами многоточечной конференции (Multipoint Control Unit - MCU),согласно стандарту Н.231. Серверы многоточечной конференции также отвечают за обработку и распределение аудио и видео данных от нескольких участников.

Для достижения этих целей сервер многоточечной конференции посылает каждому участнику смешанный выходящий или результирующий сигнал, содержащий аудио данные от всех участников и доставляет сигнал соответствующим участникам. Фиг.1 не только показывает блок-схему конференц-системы 100, но также сигнальный поток в данной конференц ситуации.

В рамках стандартов Н.323 и Н.320, аудио кодеки класса G.7xx предназначены для работы с соответствующими конференц-системами. Стандарт G.711 используется для ISDN-передачи в кабельных телефонных системах. При частоте дискретизации 8 кГц, стандарт G.711 определяет диапазон аудио частот между 300 и 3400 Гц, при требуемой скорости битового потока в 64 кБит/с с величиной квантования 8 Бит. Кодирование осуществляется путем простого логарифмического кодирования, называемого µ-Law или A-Law, которое создает очень небольшую задержку всего в 0,125 мс.

Стандарт G.722 кодирует больший диапазон аудио частот от 50 до 7000 Гц с частотой дискретизации в 16 кГц. Как следствие, кодек обеспечивает большее качество по сравнению с более узко-полостными аудио кодеками G.7xx со скоростью битового потока 48, 56, и 64 кБит/с, с задержкой сигнала в 1.5 мс. Более того, существуют еще два усовершенствованных стандарта G.722.1 и G.722.2, которые обеспечивают сравнительно лучшее качество передачи речи даже при более низких скоростях битового потока. G.722.2 позволяет выбирать скорость битового потока между 6.6 кБит/с и 23.85 кБит/с с задержкой в 25 мс.

Стандарт G.729 обычно применяется в случае IP-телекоммуникации, которую также называют голосовой IP коммуникацией (VoIP). Кодек оптимизирован для речи и передает набор анализируемых речевых параметров для последующего синтеза наряду с ошибочным сигналом. В результате, стандарт G.729 осуществляет значительно лучшее кодирование со скоростью примерно 8 кБит/с при сопоставимой скорости дискретизации и широте аудио диапазона по сравнению со стандартом G.711. Более сложный алгоритм, однако, создает задержку примерно 15 мс.

Недостатком (погрешности вызваны) является и то, что кодеки G.7.xx оптимизированы для кодирования речи и шоу, не говоря о маленькой частоте диапазона, значительных проблемах при кодировании музыки вместе с речью или только музыки.

Следовательно, хотя конференц система 100, как показано на фиг.1, может быть использована для приемлемого качества при передаче и обработке речевых сигналов, общие аудио сигналы не достаточно хорошо обрабатываются, если применяются кодеки с низкой задержкой, оптимизированные (разработанные) для речи.

Другими словами, применение кодеков для кодирования и декодирования речевых сигналов для обработки общих аудио сигналов, включая, например, аудио сигналы с музыкой, не приводит к удовлетворительному качеству. Благодаря применению кодеков для кодирования и декодирования речевых сигналов в рамках конфернц системы 100, как это показано на фиг.1, качество можно улучшить.

Однако, как будет описано в контексте фиг.2 более подробно, применение общих аудио кодеков в такой конференц системе может привести к дальнейшим нежелательным эффектам, таким как, например, увеличивающаяся задержка сигнала.

Однако перед более подробным описанием фиг.2, следует отметить, что в настоящем описании объекты обозначены теми же или подобными условными знаками, когда соответствующие им объекты появляются более одного раза в осуществлении изобретения или фигуре, или появляются в нескольких примерах осуществления изобретения или фигурах. Если не обозначены эксплицитно или имплицитно каким либо другим путем, объекты, обозначенные теми же или подобными знаками, могут быть применены подобным или равным образом, например, в отношении их схемотехники, программирования, характеристик или других параметров. Таким образом, объекты, появляющиеся в нескольких примерах осуществления изобретения в фигурах и обозначенные теми же или подобными условными знаками, могут применяться с теми же спецификациями, параметрами и характеристиками. Естественно, также могут применяться разновидности и варианты (adaptations), например, когда пограничные условия или другие параметры меняются от фигуры к фигуре, или от примера к примеру.

Более того, следующие обобщающие условные обозначения будут использоваться для обозначения группы или класса объектов скорее, чем одного объекта. В рамках фиг.1 это было уже сделано, например, при обозначении первого входа как входа 110-1, второго входа как входа 101-2, и третьего входа как входа 110-3, в то время как все входы были обозначены обобщающим условным знаком 110. Другими словами, если эксплицитно никак не обозначены иначе, части описания, соответствующие объектам, обозначенным обобщающими условными знаками, могут также соотноситься с другими объектами, имеющими соответствующие индивидуальные условные обозначения.

Так как это также верно для объектов, обозначенных теми же самыми или подобными условными обозначениями (знаками), обе процедуры (меры) позволяют сократить описание и описать осуществление данного изобретения в более ясном и кратком виде.

Фиг.2 показывает блок-схему будущей конференц системы 100 вместе с конференц терминалом 160, которые похожи на те, которые показаны на фиг.1. Конференц система 100, показанная на фиг.2 также содержит входы 110, декодеры 120, сумматоры 130, кодирующие устройства 140, и выходы 150, которые также соединены между собой, как это можно увидеть в конференц системе 100 на фиг.1. Конференц система 100 на Фиг.2 также содержит входы 110, декодеры 120, сумматоры 130, кодирующие устройства 140, и выходы 150, которые также соединены между собой, как можно видеть в конференц системе 100 на фиг.1 Конференц терминал 160 на фиг.2 также содержит кодирующее устройство 170 и декодер 180. Поэтому, делается указание (ссылка) на описание соответствующей системы 100, показанной на фиг.1

Однако конференц система 100, показанная на фиг.2, так же как и конференц терминал 160, показанный на фиг.2, выполнены так, чтобы использовать общий аудио кодек (кодирующее устройство- декодер). Вследствие этого, каждое из кодирующих устройств 140, 170, содержит сложное (комплексное) соединение временного/частотного пакета 190, присоединенного к устройству квантования/ кодирующему устройству 200. Временной/частотный пакет 190 также показан на фиг.2 как "T/F" (В/Ч), в то время как устройство квантования/кодирующее устройство отмечено на фиг.2 как "Q/С" (К/К)

Каждый из декодеров 120,180 содержит декодер/устройство обратного квантования 210, который обозначен на фиг.2 как "Q/С^-1", подсоединенный в последовательности к частотно/временному преобразователю 190, устройству квантования/ кодирующему устройству 200 и декодеру/ устройству обратного квантования 210, в то же время частотно/временной преобразователь 220 обозначен таким образом только в случае с кодирующим устройством 140-3 и декодером 120-3. Однако следующее описание также соответствует другим подобным элементам.

Проходя через кодирующее устройство, такое как кодирующее устройство 140, или кодирующее устройство 170, аудио сигнал поступает во временной/частотный преобразователь 190 и преобразуется из временной области в частотную область или частотно-соотносимую область с помощью преобразователя 190. Затем, преобразованные аудио данные, генерированные в спектральном виде временным/частотным преобразователем 190, квантуются и кодируются для формирования битового потока, который далее подается, например, к выходам 150 конференц системы 100 в случае применения кодирующего устройства 140.

Что касается декодеров, таких как декодер 120 или декодер 180, битовый поток, подаваемый к декодерам, вначале декодируется и проходит процесс обратного квантования (переквантования), чтобы сформировать в спектральном виде хотя бы часть аудио сигнала, который затем преобразуется назад во временную область с помощью частотно/временных преобразователей 220.

Временные/частотные преобразователи 190, также как элементы обратной связи, частотно/временные преобразователи 220, поэтому, выполнены так, чтобы генерировать спектральное представление (вид), по крайней мере, части поданного к ним аудио сигнала, и преобразовать спектральное представление (вид) в соответствующие части аудио сигнала во временную область, соответственно.

В процессе преобразования аудио сигнала из временной области в частотную область, и обратно, из частотной области во временную область, могут возникать изменения, из-за которых вновь восстановленный, преобразованный и декодированный аудио сигнал может отличаться от оригинала или аудио сигнала источника. Дополнительная посторонняя информация (шумы) может присоединяться путем дополнительных шагов квантования и повторного (обратного) квантования, выполняемых в рамках работы кодирующего устройства квантования 200 и декодера 210. Другими словами, оригинальный аудио сигнал, так же как и восстановленный аудио сигнал, могут отличаться друг от друга.

Временные/частотные преобразователи 190, также как и частотно/временные преобразователи 220 могут, например, применяться на основе MDCT (Модификатора дискретного косинусного преобразования) и MDST (Модификатора дискретного синусного преобразования), FFT - преобразователя (РРТ = Быстрое преобразование Фурье (БПФ), или другого преобразователя Фурье. Квантование и обратное квантование (деквантованйе) в структуре работы устройства квантования/кодирующего устройства 200 и декодера/устройства обратного квантования (деквантизатора) 210 может, например, осуществляться на основе линейного квантования, логарифмического квантования, или другого более сложного алгоритма квантования, например, с учетом характеристик восприятия слушающего. Кодирующие и декодирующие части (элементы) устройства квантования/кодера 200 и декодера/устройства обратного квантования 210 могут, например, работать по схеме кодирования и декодирования Хаффмана.

Однако более сложные временные/частотные и частотно/временные преобразователи 190, 220, также как и более сложные устройства квантования/кодирования и декодирования/обратного квантования 200, 210 могут применяться в разных примерах осуществления (изобретения) и системах, как описано здесь, являясь частью или формируя, например, AAC-ELD кодирующее устройство как кодирующие устройства 140,170, и AAC-ELD декодер как декодеры 120,180.

Понятно, что желательно использовать идентичные, или хотя бы совместимые (сходные) кодирующие устройства 170, 140 и декодеры 180,120 в структуре работы конференц систем 100 и конференц терминалов 160.

Конференц система 100, как показано на фиг.2, основанная на схеме кодирования и декодирования общего аудио сигнала, также выполняет непосредственное микширование аудио сигналов во временной области. Восстановленные аудио сигналы поступают на сумматоры 130 во временной области, чтобы выполнить совмещение, и передать микшированные сигналы во временной области на временной/частотный преобразователь 190 следующих кодирующих устройств 140. Таким образом, конференц система снова содержит последовательное соединение декодеров 120 и кодирующих устройств 140, в силу чего конференц систему 100, показанную на фиг.1 и 2, обычно относят к «каскадным кодирующим системам» ("tandem coding systems").

Каскадные кодирующие системы часто имеют недостатки (помехи) высокой сложности. Сложность микширования сильно зависит от сложности применяемых декодеров и кодирующих устройств, и может значительно увеличиваться в случае работы с несколькими входящими и выходящими аудио сигналами. Более того, из-за того, что большинство схем кодирования и декодирования не могут обойтись без потерь, каскадная кодирующая схема, применяемая в конференц системах 100, показанных на фиг.1 и 2, обычно негативно влияет на качество.

К другим недостаткам (помехам) относятся повторяющиеся шаги декодирования и кодирования, которые также увеличивают общую задержку (сигнала) между входами 110 и выходами 150 в конференц системе 100, которая также называется end-to-end delay (задержка от начала до конца). В зависимости от изначальной задержки используемых декодеров и кодирующих устройств, конференц система 100 может сама увеличивать задержку сигнала до уровня, который делает использование ее в структуре работы конференц системы не привлекательным, если не сказать беспокоящим или даже невозможным. Чаще всего задержка примерно в 50 мс считается максимальной задержкой, которую могут принять участники коммуникации.

Будучи главными источниками задержки сигнала, временные/частотные преобразователи 190, также как и частотно/временные преобразователи 220, отвечают за общую задержку в конференц системе 100, и дополнительную задержку сигнала, создаваемую конференц терминалами 160. Задержка, вызванная следующими элементами, а именно, устройствами кватования/ кодирования 200 и устройствами обратного квантования/декодирования 210 менее важна, так как эти компоненты могут работать на значительно более высокой частоте по сравнению с временными/частотными преобразователями и частотно/временными преобразователями 190, 220. Большинство временных/частотных преобразователей и частотно/временных преобразователей 190, 220 управляются блоком или фреймом, что означает, что в большинстве случаев минимальная задержка должна приниматься во внимание, что соответствует времени, необходимому для загрузки буфера или памяти, имеющей объем фрейма. На время задержки, однако, значительно влияет частота дискретизации, которая обычно находиться в диапазоне между несколькими кГц и несколькими 10 кГц, в то время как оперативная скорость устройств квантования/кодирования 200, так же как и декодеров/устройств обратного квантования 210 в основном определяется тактовой частотой базовой системы. Обычно, по крайней мере, 2, 3, 4 и более размер (порядок) величины увеличивается.

Поэтому, в конференц системах, использующих кодеки общего аудио сигнала, была введена так называемая технология микширования битового потока. Способ микширования битового потока может, например, осуществляться на основе кодека MPEG-4 AAC-ELD, который позволяет избежать, по крайней мере, недостатков (помех), упомянутых выше и возникающих при каскадном кодировании.

Стоит, однако, отметить, что, в принципе, конференц система 100 как показано на фиг.2, может также использоваться на основе кодека MPEG-4 AAC-ELD с похожей скоростью битового потока и значительно большей частотой диапазона частот, по сравнению с вышеупомянутыми разновидностями кодеков G.7xx на основе кодирования речи. Неизбежно следует, что значительно лучшее качество звучания для любых типов аудио сигналов может быть достигнуто ценой значительного увеличения скорости битового потока. Хотя MPEG-4 AAC-ELD кодеки имеют задержку, которая соответствует кодеку G.7xx, применение их в структуре работы конференц системы, как показано на фиг.2, может не привести к практическому использованию конференц системы 100. Далее, учитывая фиг.3, будет описана более практичная система на основе вышеупомянутого микширования битового потока.

Стоит отметить, что только с целью упрощения, главное внимание будет уделяться кодеку MPEG-4 AAC-ELD и его битовому потоку или битовым потокам. Однако также и другие кодирующие устройства и декодеры могут применяться в конфигурации (условиях эксплуатации) конференц системы 100, как показано на фиг.3.

Фиг.3 показывает блок-схему конференц системы 100, работающую в соответствии с принципом микширования битового потока с использованием конференц терминала 160, как описано в контексте фиг.2. Конференц система 100 представляет собой упрощенную версию конференц системы 100, показанной на фиг.2. Уточним, что декодеры 120 конференц системы 100 на фиг.2 были заменены декодерами/устройствами обратного квантования 220-1, 220-2, 220-3,… как показано на фиг.3. Другими словами частотно/временные преобразователи 120 декодеров 120 были удалены, если сравнить конференц системы 100, показанные на фиг.2 и 3. Таким же образом, кодирующие устройства 140 конференц системы 100 на фиг.2 были заменены на устройства квантования/кодирующие устройства 200-1, 200-2, 200-3. Также, временные/частотные преобразователи 190 кодирующих устройств 140 были удалены, если сравнить конференц системы 100, показанные на фиг.2 и 3.

В результате сумматоры 130 больше не работают во временной области из-за отсутствия частотно/временных преобразователей 220 и временных/частотных преобразователей 190 в частотном или частотно-соотносимой области.

Например, в случае с кодеками MPEG-4 AAC-ELD, временной/частотный преобразователь 190 и частотно/временной преобразователь 220, которые присутствуют только в конференц терминалах 160, работают на основе MDCT-преобразования. Поэтому, внутри конферец системы 100, микшеры 130 непосредственно осуществляют перевод аудио сигналов в MDCT-частотный вид (представление). Поэтому, внутри конференц системы 100 микшеры 130 работают непосредственно над передачей аудио сигналов в MDCT-частотный вид (представление).

Так как преобразователи 190, 220 являются главным источником задержки сигнала в случае с конференц системой 100, показанной на фиг.2, задержку можно существенно сократить, если убрать преобразователи 190, 220. Более того сложность, возникающая из-за работы преобразователей 190, 220 внутри конференц системы 100 также значительно сокращается. Например, в случае с декодером MPEG-2 ААС, обратное MDCT-преобразование (трансформация), выполняемое в режиме работы частотно/временного преобразователя 220, отвечает приблизительно за 20% общей сложности. Так как MPEG-4 преобразователь также базируется на похожем преобразовании, существенной части общей сложности можно избежать, устранив временной/частотный преобразователь 220 из конференц системы 100.

Микширование аудио сигналов в области MDCT, или в другой частотной области возможно, так как MDCT- преобразование, так же как и другое подобное преобразование Фурье, являются линейными преобразованиями. Преобразования, таким образом, обладает свойством математической суммируемости, а именно

$f (x + y) = f (x) + f (y), \begin{matrix} \end{matrix} (1)$

И также свойством математической однородности, а именно

$f (a \cdot x) = a \cdot f (x), \begin{matrix} \end{matrix} (2)$

где f(x) является функцией преобразования, х и у - подходящие аргументы (переменные) функции и вещественные или комплексные постоянные.

Оба свойства MDCT-преобразования или другого преобразования Фурье позволяют осуществлять микширование в соответствующем частотной области, похожем на микширование во временной области. Поэтому, все вычисления могут одинаковым образом осуществляться на основе спектральных значений. Преобразование данных во временной области не требуется.

В некоторых обстоятельствах должно выполняться следующее условие. Все соответствующие спектральные данные должны быть одинаковыми по отношению к их временным индексам во время процесса микширования для всех соответствующих спектральных компонентов. Это может не выполняться в случае, если во время трансформации применяется так называемая техника переключения блоков данных, благодаря которой кодирующее устройство конференц терминалов 160 может свободно переключаться между разными длинами (емкостями) блоков данных в зависимости от разных условий. Блоковое переключение может привести к опасной возможности присваивания индивидуальных спектральных значений дискретным значениям сигналов (samples) во временной области из-за переключения между разными длинами (емкостями) блоков данных и соответствующими длинами интервалов преобразования MDCT, пока данные, подлежащие микшированию, не будут обработаны с теми же интервалами. Так как в общей системе с распределенными конференц терминалами 160 этого нельзя гарантировать постоянно, потребуется сложная интерполяция, которая, в свою очередь, может создать дополнительную задержку и сложность. Вследствие этого, не рекомендуется осуществлять процесс микширования битовых потоков на основе переключения длин (емкостей) блока данных.

Наоборот, кодак AAC-ELD использует однократную (единую) длину (емкость) блока данных и, поэтому, имеет возможность гарантировать более легкое осуществление выше описанных операций или синхронизацию частотной информации так, что микширование может быть более легко выполнимо. Другими словами, конференц система 100, описанная на фиг.3, является системой, которая способна осуществлять микширование в области преобразования или частотной области.

Как говорилось выше, для того, чтобы устранить дополнительную задержку, создаваемую пакетами 190,200 в конференц системе 100, показанннной на фиг.2, кодеки, используемые в конференц терминалах 160, используют интервал (window) фиксированной длины (емкости) и формы. Это позволяет осуществлять описанный процесс микширования напрямую без преобразования аудио потока обратно во временную область. Такой подход позволяет сократить дополнительно возникающую алгоритмическую задержку. Более того, уменьшается сложность за счет отсутствия обратных трансформационных шагов в декодере и прямых преобразовательных шагов в кодирующем устройстве.

Однако также в конфигурации конференц системы 100, как показано на фиг.3, может быть необходимым обратное квантование (re-quantize) аудио данных после микширования в сумматорах 130, что может привести к дополнительным шумам квантования. Дополнительные шумы квантования могут, например, появляться из-за различных шагов квантования разных аудио сигналов, подаваемых в конфереренц систему 100. В результате, в случае, например, очень низкой (медленной) трансмиссии битовой скорости, при которой количество шагов квантования уже ограниченно, процесс микширования двух аудио сигналов в частотной области или области передачи может привести в итоге к нежелательному количеству дополнительного шума или другим искажениям в генерированном сигнале.

Прежде чем описать первое осуществление данного изобретения в форме устройства для микширования множества входящих информационных потоков, как показано на фиг.4, будут кратко описаны информационный поток и битовый поток вместе с содержащимися в них информационными данными.

Фиг.4 схематично показывает битовый поток или информационный поток 250, который содержит, по крайней мере, один или чаще более одного фрейма 260 аудио данных в спектральной области. Говоря точнее, фиг.4 показывает три фрейма 260-1, 260-2, и 260-3 аудио данных в спектральной области. Более того, информационный поток 250 может также содержать дополнительную информацию или блоки дополнительной информации 270, такие как контрольные параметры, показывающие, например, способ (вид, way) кодирования аудио данных, другие контрольные параметры или информацию, касающуюся временных индексов, или другую соотносимую информацию. Естественно, информационный поток 250, как показано на фиг.4, может также содержать дополнительные фреймы или фрейм 260 может содержать аудио данные более чем одного канала. Например, в случае со стерео аудио сигналом, каждый из фреймов 260 может, например, содержать аудио данные из левого канала, правого канала, аудио данные, исходящие из двух, левого и правого каналов, или любые комбинации выше упомянутых данных.

Таким образом, фиг.4 показывает, что информационные потоки 250 могут содержать не только фрейм аудио данных в спектральной области, но также дополнительную контрольную информацию, контрольные параметры, параметры состояния системы, информацию о состоянии системы, протокольно-соотносимые параметры (напр., проверочные суммы), или подобное.

В зависимости от конкретного применения конференц системы, как описано в контексте фиг.1-3, или в зависимости от конкретного применения устройства в соответствии с осуществлением данного изобретения, как будет описано ниже, в частности, в соответствии с изображением на фиг.9-12с, контрольные параметры, обозначающие способ (вид, way), которым соответствующие загружаемые данные фрейма представляют, по крайней мере, часть спектральной области или спектральную информацию аудио сигнала, могут одинаково содержаться в самих фреймах 260, или в соответствующем блоке 270 дополнительной информации.

В случае если контрольные параметры соотносятся со спектральными компонентами, контрольные параметры могут кодироваться непосредственно во фреймах 260. Однако если контрольный параметр соотноситься с целым фреймом, он может в равной степени содержаться в блоках 270 дополнительной информации. Однако упомянутые выше места содержания контрольных параметров не обязательно должны, как описано выше, содержаться во фреймах 260 или блоке 270 дополнительных блоков. В том случае, если контрольный параметр соотноситься только с одним или несколькими спектральными компонентами, он может в равной степени содержаться в блоке 270. С другой стороны, контрольный параметр, соотносящийся с целым фреймом 260, может также содержаться во фреймах 260.

Фиг.5 схематично иллюстрирует (спектральную) информацию, касающуюся спектральных компонентов как, например, содержащуюся во фрейме 260 информационного потока 250. Говоря более точно, фиг.5 показывает упрощенную схему информации в спектральной области единственного канала в фрейме 260. В спектральной области, фрейм аудио данных может, например, быть описан с учетом параметров его интенсивности I в функции частотности f. В дискретных системах, таких как цифровые системы, разрешающая способность по частоте также дискретна, таким образом, спектральная информация обычно представлена только для определенных спектральных компонентов, таких как индивидуальные частоты или узкие полосы (диапазона частот) или дополнительные полосы (поддиапазоны). Индивидуальные частоты, или узкие полосы, также как и дополнительные полосы, относятся к спектральным компонентам.

Фиг.5 схематично показывает дистрибуцию по интенсивности для шести индивидуальных частот 300-1,…, 300-6, так же как и диапазон частот или поддиапазон 310, включающий, в случае, показанном на фиг.5, четыре индивидуальные частоты. Как индивидуальные частоты, так и соответствующие узкие полосы 300, а также поддиапазон и диапазон частот 310, образуют спектральные компоненты, с учетом которых фрейм содержит информацию, касающуюся аудио данных в спектральной области.

Информация, касающаяся поддиапазон 310, может быть, например, параметром общей интенсивности или параметром средней интенсивности. Кроме интенсивности или других энерго-соотносимых параметров, таких как амплитуда, энергия самого соответствующего спектрального компонента, или другой параметр, связанный с энергией или амплитудой, во фрейме может также содержаться фазовая информация или другая информация, которая может рассматриваться как информация, касающаяся спектрального компонента.

После описания некоторых проблем и особенностей работы конференц систем, описывается осуществление данного изобретения согласно первому пункту, согласно которому вход определяется на основе сравнения, чтобы скопировать хотя бы часть спектральной информации из определенного входящего информационного потока в выходящий информационный поток, таким образом, позволяя избежать обратного квантования, и вместе с этим шума, сопровождающего обратное квантование.

Фиг.6 показывает блок-схему устройства 500 для микширования множества входящих информационных потоков 510, два из которых обозначены 510-1, 510-2. Устройство 500 содержит блок обработки данных 520, который выполнен так, чтобы получать информационные потоки 510 и генерировать выходящий информационный поток 530. Каждый из входящих информационных потоков 510-1, 510-2, содержит фрейм 540-1, 540-2, соответственно, который подобно блоку фрейму 260, показанному на фиг.4, в контексте фиг.5 содержит аудио данные в спектральной области. Это также проиллюстрировано на оси координат, показанной на фиг.6 на горизонтальной оси (абсциссе), где обозначена частота f, и на оси ординат, где обозначена интенсивность I. Исходящий информационный поток 530 также содержит исходящий фрейм 550, который содержит аудио данные в спектральной области, что также проиллюстрировано на соответствующей оси координат.

Блок обработки данных 520 выполнен так, чтобы сравнивать фреймы 540-1, 540-2 из множества входящих информационных потоков 510. Как будет описано подробнее, это сравнение может, например, быть основано на психо-акустической модели, которая учитывает эффект маскировки (экранирования) и другие особенности восприятия слушающего. Основываясь на результате такого сравнения, блок обработки данных выполнен так, чтобы далее выделить хотя бы один спектральный компонент, например, спектральные компоненты 560, показанные на фиг.6, которые присутствуют в обоих фреймах 540-1, 540-2, точнее один информационный поток из множества информационных потоков 510.

Затем, блок обработки данных 520 может быть выполнен так, чтобы генерировать исходящий информационный поток 530, содержащий исходящий фрейм 550, так, чтобы информация, касающаяся спектрального компонента 560, копировалась из определенного фрейма 540 соответствующего входящего информационного потока 510.

Говоря более точно, блок обработки данных 520 выполнен так, что сравнение фрейма 540 множества входящих информационных потоков 510 основано на, по - крайней мере, двух информационных данных - параметрах интенсивности, которые являются энергетическими параметрами, - относящихся к тому же спектральному компоненту 560 фрейма 540 двух разных входящих информационных потоков 510.

Для дальнейшей наглядности этого фиг.7 схематично показывает случай, при котором часть информации (интенсивность I), относящаяся к спектральным компонентам 560, которые здесь рассматриваются, является частотой или узкой полосой частот (диапазоном) фрейма 540-1 первого входящего информационного потока 510-1. Это сравнивается с соответствующим параметром интенсивности I, который является частью информации, касающейся спектрального компонента 560 фрейма 540-2 второго входящего информационного потока 510-2. Сравнение может быть сделано, например, на основе оценки энергетического соотношения (пропорции) между микшированным сигналом, в который включены только некоторые входящие информационные потоки, и полностью микшированным сигналом. Этого можно достигнуть, например, согласно формулам

$E_{c} = \sum_{n = 1}^{N} E_{n} (3)$

$E_{f^{(n)}} = \sum_{\begin{array}{l} n = 1 \\ n \neq 1 \end{array}}^{N} E_{i} (4)$

и вычислить соотношение r(n) в соответствии с

$r (n) = 20 \cdot \log \frac{E_{f^{(n)}}}{E_{c}} (5)$

где n является индексом входящего информационного потока и N является количеством всех соответствующих входящих информационных потоков. Если соотношение r(n) достаточно большое, менее доминирующие каналы или менее доминирующие фреймы входящих информационных потоков 510 можно рассматривать как маскируемые доминирующими. Таким образом, может произойти нежелательное (нерелевантное) сокращение, означающее, что только те спектральные компоненты потока будут включены, которые хорошо заметны, в то время как остальные потоки не будут учитываться.

Энергетические параметры, которые должны рассматриваться в рамках уравнений с (3) по (5) могут, например, быть получены из параметров интенсивности, показанных на фиг.6, вычислением квадрата соответствующих параметров интенсивности. В случае, если информация, касающаяся спектральных компонентов, может содержать другие параметры, подобное вычисление может быть произведено в зависимости от формы информации, содержащейся во фрейме 510. Например, в случае со сложными параметрами информации может быть выполнено вычисление модуля (абсолютного значения) реальных и воображаемых компонентов индивидуальных параметров, составляющих информацию, касающуюся спектральных компонентов.

Помимо индивидуальных частот, для применения психо-акустического модуля в соответствии с уравнениями с (3) по (5), суммы в уравнениях (3) и (4) могут содержать более чем одну частоту. Другими словами, в уравнениях (3) и (4) соответствующие энергетические параметры E_n могут быть заменены общим энергетическим параметром, соответствующим множеству индивидуальных частот, энергии полосы диапазона частот, или, используя более общую терминологию, одной частью спектральной информации или множеством спектральной информации, касающейся одного или более спектральных компонентов. -.

Например, так как AAC-ELD работает в то же время на спектральных линиях в полосе диапазона частот подобных слуховой системе человека, подобным образом может быть проведена неадеквантная оценка или создана психо-акустическая модель.

Применяя психо-акустическую модель, таким образом, возможно переместить или заменить часть сигнала только одной полосы диапазона частот, если это необходимо.

Как показали психо-акустические исследования, маскировка (экранирование) одного сигнала другим зависит от типов сигналов. В качестве минимального порога для нерелевантного определения, может быть применен наихудший сценарий. Например, для маскирующего шума по синусоиде или другого четкого и хорошо определимого звука, обычно требуется разница от 21 до 28 дБ. Тесты показали, что пороговый параметр примерно равный 28.5 дБ может привести к хорошим заместительным результатам. Этот параметр может, очевидно, быть улучшен, если принять во внимание фактически рассматриваемые диапазоны частот.

Поэтому, параметры r(n) согласно уравнению (5), превышающие 28,5 дБ, могут рассматриваться как несовместимые с точки зрения психо-акустической оценки или оценки несовместимости, основанной на рассматриваемом спектральном компоненте или спектральных компонентах. Для разных спектральных компонентов могут использоваться разные параметры. Так, может быть полезно использование порогов как индикаторов для психо-акустической несовместимости входящего информационного потока в отношении рассматриваемого фрейма в 10-40 дБ, 20-30 дБ или 25-30 дБ.

В ситуации, показанной на фиг.7, это означает, что с учетом спектрального компонента 560, первый входящий информационный поток 510-1 выделен, в то время как второй входящий информационный поток 510-2 не берется во внимание, с учетом спектрального компонента 560. В результате, часть информации, касающейся спектрального компонента 560, по крайней мере, частично копируется из фрейма 540-1 первого входящего информационного потока 510-1 в исходящий фрейм 550 исходящего информационного потока 530. Это показано на фиг.7 стрелкой 570. В то же время, части информации, касающейся спектральных компонентов 560 фрейма 540 других входящих информационных потоков 510 (то есть на фиг.7, фрейм 540-2 входящего информационного потока 510-2) не учитываются, что показано прерывистой линией 580.

Другими словами, устройство 500, которое может, например, использоваться как устройство для реализации многоточечной аудио- и видеоконференции (MCU) или конференц система 100, выполнено так, чтобы выходящий информационный поток 530 вместе с выходящим фреймом 550 генерировался таким образом, чтобы информация, касающаяся спектрального компонента, копировалась только из фрейма 540-1 выделенного(определенного) входящего информационного потока 510-1, описывающего спектральный компонент 560 выходящего фрейма550 выходящего информационного потока 530. Естественно, устройство 500 может быть выполнено таким образом, чтобы информация, касающаяся более чем одного спектрального компонента, могла быть скопирована из входящего информационного потока, не учитывая другие входящие информационные потоки, по крайней мере, в отношении этих спектральных компонентов. Далее также возможно, чтобы устройство 500, или его блок обработки данных 520, было настроено таким образом, чтобы для разных спектральных компонентов выделялись разные входящие информационные потоки 510. Тот же самый выходящий фрейм 550 выходящего информационного потока 530 может содержать копированную спектральную информацию, касающуюся разных спектральных компонентов из разных входящих информационных потоков 510.

Естественно, можно рекомендовать использовать устройство 500 таким образом, чтобы в случае последовательности фреймов 540 во входящем информационном потоке 510, во время сравнения и выделения рассматривались только фреймы 540, которые соответствуют подобному или одинаковому временному индексу.

Другими словами, фиг.7 показывает операционные принципы (принципы работы) устройства для микширования множества входящих информационных потоков как описывалось выше в соответствии с осуществлением данного изобретения. Как говорилось ранее, микширование производиться не прямым способом в том смысле, что все входящие потоки декодируются, что включает обратное преобразование во временную область, микширование и затем перекодирование сигналов.

Осуществление изобретения на фигурах с 6 по 8 основано на микшировании, производимом в частотной области соответствующего кодека. Возможно использовать кодек AAC-ELD, или любой другой кодек со стандартным преобразующим интервалом. В таком случае нет необходимости во временном/частотном преобразовании для микширования соответствующих данных. Примеры согласно осуществлению данного изобретения подтверждают тот факт, что возможно иметь доступ ко всем параметрам битовых потоков, таким как размер шага квантизации и другим параметрам, и, что эти параметры могут быть использованы для генерирования микшированного выходящего битового потока.

Примеры на фиг.6-8 показывают, что микширование спектральных линий или спектральной информации, касающейся спектральных компонентов можно произвести путем весового суммирования спектральных линий источника или спектральной информации. Параметры весовой обработки могут быть равны нулю или единице, или в принципе, иметь любое значение посередине (между ними). Нулевой параметр означает, что источники будут считаться несовместимыми (иррелевантными) и не будут использоваться. Группы линий, такие как полосы или масштабированные полосы могут использовать один и тот же весовой параметр. Однако, как проиллюстрировано ранее, параметры весовой обработки (например, распределение нулей и единиц) могут варьироваться для спектральных компонентов одного фрейма 540 одного входящего информационного потока 510. Более того, нет необходимости в исключительном использовании параметров весовой обработки равных нулю или единице для микширования спектральной информации. При некоторых обстоятельствах, не для одного, а для множества всей спектральной информации фрейма 540 входящего информационного потока 510, соответствующие факторы весовой обработки могут отличаться от нуля или единицы.

В одном особом случае все полосы частот или спектральный компонент одного источника (входящего информационного потока 510) равны параметру единицы, и все параметры других источников равны нулю. В этом случае полный входящий битовый поток одного участника идентично копируется как конечный микшированный битовый поток. Параметры весовой обработки могут быть вычислены на основе перехода от фрейма к фрейму, но также могут быть вычислены или определены на основе групп или последовательностей фреймов. Естественно, даже внутри такой последовательности фреймов или внутри одного фрейма параметры весовой обработки могут различаться для разных спектральных компонентов, как показано выше. Параметры весовой обработки могут быть вычислены или определены в соответствии с результатами психо-акустической модели.

Пример психо-акустической модели уже был описан выше в контексте уравнений (3), (4), и (5). Психо-акустическая модель или соответствующий модуль (абсолютная величина) вычисляет энергетическое отношение r(n) между микшированным сигналом, куда включены только некоторые входящие информационные потоки, ведущим к энергетическому параметру E_f, и полностью микшированным сигналом, имеющим энергетический параметр E_c. Энергетическое соотношение r(n) затем вычисляется согласно уравнению (5) как двадцати кратный логарифм от E_f, деленного на E_c.

Если соотношение достаточно большое, менее доминирующие каналы можно рассматривать как маскируемые доминирующими. Таким образом, может произойти нерелевантное сокращение, означающее, что только те потоки будут включены, которые совсем незаметны, к которым применим параметр весовой обработки равный единице, в то время как все остальные потоки - по крайней мере, спектральная информация одного спектрального компонента - не будут учитываться. Другими словами, к которым (последним) относится весовой параметр нуля.

Преимуществом является тот факт, что благодаря сокращенному количеству шагов повторного/обратного квантования появляются эффекты более или менее каскадного кодирования. Так как каждый шаг квантизации несет в себе серьезную опасность сокращения дополнительного квантового шума, общее качество аудио сигнала может быть улучшено применением вышеупомянутых примеров осуществления изобретения для микширования множества входящих информационных потоков. Это может применяться в случае, когда блок обработки данных 520 устройства 500, как показано, например, на фиг.6, выполнен так, чтобы выходящий информационный поток 530 генерировался таким образом, чтобы сохранялась дистрибуция (распределение) уровней квантования по сравнению с дистрибуцией уровней квантования фрейма выделенного входящего потока или его частей. Другими словами, с помощью копирования и, поэтому, повторного использования соответствующих данных без повторного кодирования спектральной информации, можно избежать возникновения дополнительного шума квантования.

Более того, конференц система, например, теле/видео конференц система с более чем двумя участниками, в которой используется осуществление данного изобретения, описанное выше с учетом фиг.6 -8, обладает преимуществом в виде меньшей сложности по сравнению с микшированием во временной области, так как позволяет пропустить (не использовать) шаги временного/частотного преобразования и шаги повторного (обратного) кодирования. Более того, не возникает дальнейшая задержка, вызванная данными компонентами, по сравнению с микшированием во временной области, благодаря отсутствию задержки фильтрации.

Суммируя выше сказанное, вышеописанные примеры осуществления изобретения могут, например, быть выполнены так, чтобы полосы диапазона частот или спектральная информация, соответствующая спектральным компонентам, которые взяты полностью из одного источника, не подвергались повторному (обратному) квантованию. Поэтому, только полосы частот или спектральная информация, которые микшируются, подвергаются квантованию, что сокращает дополнительный шум квантования.

Однако выше описанные примеры осуществления изобретения могут также применяться для разных целей, таких как замещение персептивного шума (PNS), временное изменение шума(ТМЗ), расщепление (мультипликация) спектральной полосы частот(ЗВК), и виды стерео кодирования. До описания работы устройства, способного обрабатывать хотя бы один из параметров PNS, параметров TNS и параметров SBR, или параметров стерео кодирования, осуществление согласно данному изобретению будет описано более подробно с учетом фиг.8.

Фиг.8 показывает блок-схему устройства 500 для микширования множества входящих информационных потоков, содержащее блок обработки данных 520. Говоря более точно, фиг.8 показывает обладающее высокой гибкостью устройство 500, которое может обрабатывать сильно отличающиеся аудио сигналы, закодированные во входящих информационных потоках (битовых потоках). Некоторые из компонентов, которые будут описаны ниже, поэтому, являются необязательными компонентами, которые не требуется применять во всех случаях.

Блок обработки данных 520 содержит декодер битовых потоков 700 для каждого из входящих информационных потоков или кодированных аудио битовых потоков, которые необходимо преобразовывать/обрабатывать в блоке обработки данных 520. В целях упрощения фиг.8 показывает только два битовых потока декодеров 700-1, 700-2. Естественно, в зависимости от количества входящих информационных потоков, подлежащих обработке, может применяться большее количество декодеров 700 входящих информационных потоков или меньшее количество, если, например, декодер битового потока 700 может последовательно обрабатывать более чем один входящий информационный поток.

Декодер битового потока 700-1, так же как другие декодеры битовых потоков 700-2,… каждый содержат считывающее устройство битового потока 710, который предназначен для получения и обработки получаемых сигналов, и для изолирования и изъятия данных, содержащихся в битовом потоке. Например, считывающее устройство битового потока 710 может быть предназначено для синхронизации входящих данных с внутренними часами и может также быть предназначено для разделения входящих информационных потоков на соответствующие фреймы.

Декодер битового потока 700 далее содержит декодер Хуфмана 720, соединенный с выходом считывающего устройства битого потока 710 для получения изолированных данных со считывающего устройства битового потока 710. Выход декодера Хуфмана 720 соединен с устройством обратного квантования 730, который также называется устройством обратного квантования. За устройством обратного квантования 730, соединенным с декодером Хуфмана720, следует счетчик 740. Декодер Хуфмана 720, устройство обратного квантования 730 и счетчик 740 образуют первый блок 750, на выходе которого, по крайней мере, часть аудио сигнала соответствующего входящего информационного потока доступна в частотной области или частотно-соотносимой области, в которой работает кодирующее устройство участника (не показано на фиг.8).

Декодер битового потока 700 далее содержит второй блок 760, который соединен согласно поступлению данных с первым блоком 750. Второй блок 760 содержит стерео декодер 770 (M/S модуль), за которым присоединен PNS -декодер. За PNS -декодером 780 согласно поступлению данных следует TNS-декодер 790, который вместе с PNS -декодером и стерео декодером 770 образует второй блок 760.

Кроме описанного выше потока аудио данных, декодер битовых потоков 700 далее содержит множество связей между разными модулями, касающимися контрольной информации. Говоря более точно, считывающее устройство битового потока 710 также соединен с декодером Хуфмана720, чтобы получать соответствующие контрольные данные. Более того, декодер Хуфмана 720 непосредственно соединен со счетчиком 740, чтобы передавать измеряемую информацию на счетчик 740. Стерео-декодер 770, PNS-декодер 780 и TNS-декодер 790 также все подсоединены к считывающему устройству битового потока 710 для получения соответствующей контрольной информации.

Блок обработки данных 520 также содержит микширующее устройство 800, которое в свою очередь, содержит спектральный микшер 810, который далее соединен с декодерами битовых потоков 700. Спектральный микшер 810 может, например, содержать один или более сумматор, чтобы выполнить непосредственное микширование в частотной области. Более того, спектральный микшер 810 может также содержать множительные устройства, чтобы создать произвольную линейную комбинацию спектральной информации, подаваемой декодерами битовых потоков 700.

Микширующее устройство 800 также содержит оптимизирующий модуль 820, который соединен согласно подаче данных с выходом спектрального микшера 810. Оптимизирующий модуль 820, однако, также подсоединен к спектральному микшеру 810, чтобы подать контрольную информацию на спектральный микшер 810. Согласно последовательной подаче данных, оптимизирующий модуль 820 представляет выход микширующего устройства 800.

Микширующее устройство 800 также содержит SBR-микшер 830, который напрямую соединен с выходом считывателя битового потока 710 разных декодеров битовых потоков 700. Выход SBR-микшера 830 образует другой выход микширующего устройства 800.

Блок обработки данных 520 также содержит кодирующее устройство битового потока 850, которое соединено с микширующим устройством 800. Кодирующее устройство битовых потоков 850 содержит третий блок 860, содержащий TNS-кодирующее устройство 870, PNS-кодирующее устройство 880, и стерео-кодирующее устройство 890, которые последовательно подсоединены в описанном порядке. Третий блок 860, поэтому, образует устройство обратное первому блоку 750 декодера битовых потоков 700.

Кодирующее устройство битового потока 850 также содержит четвертый блок 900, который содержит счетчик 910, устройство квантования 920 и кодирующее устройство Хуфмана 930, которые последовательно образуют соединение между входом четвертого блока и выходом из него. Четвертый блок 900, поэтому, образует обратный модуль для первого блока 750. Соответственно, счетчик 910 также напрямую связан с кодирующим устройством Хуфмана 930, чтобы обеспечить кодирующее устройство Хуфмана 930 соответствующей контрольной информацией.

Кодирующее устройство битовых потоков 850 также содержит пишущее устройство битового потока 940, которое соединено с выходом кодирующего устройства Хуфмана 930. Далее, пишущее устройство битового потока 940 также соединено с TNS-кодирующим устройством 870, PNS-кодирующим устройством 880, и стерео-кодирующим устройством 890, и кодирующим устройством Хуфмана для получения контрольных данных и информации с этих модулей. Выход пишущего устройства битового потока 940 образует выход блока обработки данных 520 и устройства 500.

Кодирующее устройство битовых потоков 850 также содержит психоакустический модуль 950, который также соединен с выходом микширующего устройства 800. Кодирующее устройство битовых потоков 850 выполнено так, чтобы обеспечивать модули третьего блока 860 соответствующей контрольной информацией, показывающей, например, что (какое из устройств) можно применить для кодирования выхода аудио сигнала микширующим устройством 800 в структуре (оболочке) устройств третьего блока 860.

В принципе, на выходах из второго блока 760 ко входу в третий блок 860, возможно обрабатывать аудио сигнал в спектральной области, как определено кодирующим устройством, используемым отправителем. Однако, как отмечалось выше, последующие шаги обработки могут быть не нужны, если, например, спектральная информация фрейма одного из входящих информационных потоков является доминирующей. По крайней мере, часть спектральной информации соответствующих спектральных компонентов затем копируется в спектральный компонент соответствующего фрейма выходящего информационного потока.

Чтобы производить такую обработку устройство 500 и блок обработки данных 520 содержат также сигнальные линии для оптимального обмена информацией. Для процесса обработки согласно осуществлению данного изобретения на фиг.8 выход декодера Хуфмана 720, так же как и выходы счетчика 740, стерео декодера 770, и PNS-декодера 780 вместе с соответствующими компонентами других считывающих устройств битовых потоков 710 соединены с оптимизирующим модулем 820 микширующего устройства 800 для соответствующего процесса обработки.

Чтобы усилить после данного процесса обработки соответствующий информационный поток внутри кодирующего устройства битового потока 850, применяются соответствующие информационные линии для оптимального потока данных. Говоря более точно, выход оптимизирующего модуля 820 соединен со входом PNS-кодирующего устройства780, стерео-кодирующего устройства 890, входом четвертого блока 900 и счетчика 910, а также со входом кодера Хуфмана 930. Более того выход оптимизирующего модуля 820 также напрямую соединен со пишущим устройством битового потока 940.

Как отмечалось ранее, почти все описанные выше модули являются необязательными модулями, применение которых не требуется. Например, в случае если потоки аудио данных содержат только один единственный канал, можно не использовать стерео-кодирующее и декодирующее устройства 770,890. Соответственно, в случае если не нужно обрабатывать сигналы PNS, можно не использовать соответствующие PNS-декодер и PNS кодирующее устройство 780, 880. Модули TNS 790, 870 могут также не использоваться в случае, если обрабатываемый выходящий сигнал не основан на данных TNS.

Внутри первого и четвертого блоков 750,900 устройство обратного квантования 730, счетчик 740, устройство квантования 920, так же как и счетчик 910 могут также не использоваться. Декодер Хуфмана 720 и кодирующее устройство Хуфмана 930 могут применяться по-другому, на основании другого логарифма или совсем не использоваться.

SBR-микшер 830 также может иногда не использоваться, если, например, не присутствуют информационные параметры SBR. Далее спектральный микшер 810 может применяться по-другому, например, в паре с оптимизирующим модулем 820 и психоакустическим модулем 860. Поэтому, эти модули также считаются необязательными компонентами.

Учитывая метод работы устройства 500 вместе с блоком обработки данных 520, содержащимся в нем, входящий информационный поток сначала считывается и разделяется на соответствующие части информации считывающим устройством битового потока 710. После декодирования Хуфмана, полученная спектральная информация может быть подвержена повторному квантованию в устройстве обратного квантования 730 и измерена соответственно счетчиком 740.

После этого, в зависимости от контрольной информации, содержащейся во входящем информационном потоке, аудио сигнал закодированный во входящем информационном потоке может быть преобразован (разделен, decomposed) в аудио сигналы для двух и более каналов в рамках работы стерео декодера 770. Если, например, аудио сигнал содержит средний канал (С) и боковой канал (Б), соответствующие данные левого и правого каналов могут быть получены добавлением или устранением (удалением) среднего или бокового каналов друг от друга. Во многих случаях применения средний канал пропорционален сумме аудио данных левого и правого каналов, в то время как боковой канал пропорционален разности между левым (Л) и правым (П) каналами.

В зависимости от применения, вышеупомянутые каналы могут быть добавлены и/или удалены, учитывая фактор ¹/₂, чтобы избежать эффекта ограничения сигналов. Обобщая сказанное, разные каналы могут обрабатываться линейными комбинациями, чтобы преобразоваться в соответствующие каналы.

Другими словами, после стерео декодера 770, аудио данные могут, если это приемлемо, преобразовываться в два индивидуальных канала. Естественно, также можно выполнить обратное декодирование стерео декодером 770. Если, например, аудио сигнал, полученный считывающим устройством битового потока 710, содержит левый и правый каналы, стерео-декодер 770 может также хорошо вычислить или определить соответствующие данные среднего и бокового каналов.

В зависимости от применения не только устройства 500, но также в зависимости от применения кодирующего устройства участника, подающего соответствующий информационный поток, соответствующий информационный поток может содержать PNS-параметры (PNS-замещение персептивных шумов), PNS основано на том факте, что ухо человека с большой степенью вероятности не способно отличать (распознавать) звуки шума в ограниченном частотном диапазоне или спектральном компоненте, таком как полоса частот или индивидуальная частота, от синтетически генерированного шума. Поэтому PNS заменяет фактический шумовой эффект от аудио сигнала энергетическим параметром, показывая уровень шума, который синтетически появляется в соответствующем спектральном компоненте, и игнорируя фактический (настоящий) аудио сигнал. Другими словами, PNS-декодер 780 может заново генерировать (регенерировать) в одном или более спектральном компоненте фактический эффект шумового аудио сигнала, основываясь на PNS-параметре, содержащемся во входящем информационном потоке.

В отношении TNS-декодера 790 и TNS-кодирующего устройства 870, может быть необходимо вновь преобразовать соответствующие аудио сигналы в неизмененный вариант благодаря TNS-модулю, работающему с посылающей стороны. Изменение временного шума (TNS) является средством сокращения опережающих эховых помех, вызванных шумом квантования, которые могут появляться в случае наличия временного (неустановившегося) режима в рамках аудио сигнала. Чтобы противостоять такому неустановившемуся режиму, применяется, по крайней мере, один прогнозирующий фильтр для спектральной информации, начиная с низкой стороны спектра, высокой стороны спектра или обеих сторон спектра.

Другими словами, работа TNS-модуля основана на компьютерном применении одного или более адаптирующих IIR- фильтров (IIR - бесконечная импульсная характеристика, БИХ) и описании разницы между прогнозируемыми и фактическими аудио сигналами вместе с коэффициентами фильтрации прогнозирующих фильтров с помощью кодирования и передачи ошибочного сигнала.

Как следствие, может быть возможно увеличить качество звучания и в то же время сохранить битовую скорость передаваемого информационного потока с помощью копирования временных сигналов с применением прогнозирующего фильтра в частотную область, чтобы сократить амплитуду остаточного ошибочного сигнала, который далее может быть кодирован с использованием меньшего количества шагов квантования по сравнению с напрямую кодируемым временным аудио сигналом с подобным квантовым шумом.

В отношении применения TNS, можно рекомендовать в тех же обстоятельствах применять функционирование TNS- декодера 760, чтобы декодировать TNS-информацию входящего информационного потока, чтобы достигнуть «чистого» представления (вида) в спектральной области, определяемом используемым кодеком.

Такое применение функциональности TNS-декодеров 790 может быть полезным, если оценка психо-акустической модели (напр., применяемая в психо-акустическом модуле 950) уже не может быть осуществлена на основании коэффициентов фильтрования прогнозирующих фильтров, содержащихся в TNS-параметрах. Это может оказаться особенно важным в случае, когда, по крайней мере, один входящий информационный поток использует TNS, а другой нет.

Когда блок обработки данных определяет, основываясь на сравнении фреймов входящих информационных потоков, что должна использоваться спектральная информация из фрейма входящего информационного потока, использующего TNS, TNS-параметры могут использоваться для фрейма выходящих данных. Если, например, по причине несовместимости, реципиент (приемник) входящего информационного потока не может декодировать TNS- данные, может быть целесообразно не копировать соответствующие спектральные данные ошибочного сигнала и дальнейшие TNS-параметры, но обработать восстановленные данные из TNS- соотносимой информации, чтобы получить информацию в спектральной области, и не использовать TNS-кодирующее устройство 870. Это снова показывает, что части компонентов или модулей, показанных на фиг.8 не являются обязательными для применения и могут, по выбору, не использоваться.

В случае, по крайней мере, одного аудио входящего потока, сравнивающего PNS-данные, можно применить подобную стратегию. Если результат сравнения фреймов для спектрального компонента входящих информационных потоков показывает, что один входящий информационный поток соотносится с его настоящим фреймом и соответствующий спектральный компонент или спектральные компоненты доминируют, соответствующие PNS-параметры (например, соответствующие энергетические параметры) могут также копироваться непосредственно в соответствующий спектральный компонент выходящего фрейма. Однако, если реципиент(получатель) не имеет возможности принимать PNS-параметры, спектральная информация может быть реконструирована(восстановлена) из PNS-параметров для соответствующих спектральных компонентов путем генерирования шума с соответствующим энергетическим уровнем, показываемым соответствующим энергетическим параметром. Затем, данные шума могут соответственно быть обработаны в спектральной области.

Как отмечалось выше, передаваемая информация может также содержать SBR -данные, которые могут обрабатываться в SBR-микшере 830. Спектральный диапазон репликации (SBR) является технологией для репликации части спектра аудио сигнала, основанного на вкладе и низкой части того же спектра. Как следствие, нет необходимости передавать высокую часть спектра, кроме SBR-параметров, которые описывают энергетические значения (параметры) в частотно-зависимом и зависимым по времени виде с помощью применения соответствующей временной/частотной сетки. Как следствие, нет никакой необходимости передавать верхнюю часть спектра. Чтобы иметь возможность далее улучшить качество восстановленного сигнала дополнительно вносимые шумы и синусоидальные вложения могут быть добавлены в верхнюю часть спектра.

Говоря более подробно, для частоты больше переходной частоты fx, аудио сигнал анализируется при помощи QMF фильтрбанка (QMF - квадратурный зеркальный фильтр), который создает особое число поддиапазонных сигналов (например, 32 поддиапазонных сигнала), имеющих временное разрешение, которое сокращено фактором, равным или пропорциональным количеству поддиапазонов QMF фильтрбанка (например, 32 или 64). Как следствие, временная/частотная сетка содержит на временной оси два или более так называемых-пакета и для каждого пакета, обычно от 7 до 16 энергетических параметров, описывающих соответствующую верхнюю часть спектра.

Добавим, что SBR-параметры могут содержать информацию, касающуюся дополнительного шума и синусоид, которые затем затухают или выделяются в зависимости от их силы вышеупомянутой временной/частотной сеткой.

В случае если основанный на SBR входящий информационный поток является доминирующим входящим информационным потоком в отношении настоящего фрейма, может быть выполнено копирование соответствующих SBR-параметров вместе со спектральными компонентами. Если реципиент (получатель сигнала) снова не может декодировать сигналы на основе SBR, может быть выполнена соответствующая реконструкция в частотную область, и затем кодирование восстановленного сигнала в соответствии с требованиями получателя.

Так как SBR позволяет использовать два кодирующих стерео канала, кодирование левого и правого каналов отдельно, так же как и кодирование их при помощи сдвоенного канала (С), согласно осуществлению данного изобретения, копирование соответствующих SBR-параметров или, по крайней мере, их части, может содержать копирование С-элементов SBR-параметров в оба, левый и правый элементы SBR-параметров, которые должны быть определены и переданы, или, наоборот, в зависимости от результатов сравнения и результатов определения.

Более того, так как в разных примерах осуществления данного изобретения входящие информационные потоки могут содержать оба, моно и стерео сигналы, содержащие один или два индивидуальных канала, соответственно, моно к стерео повышающее микширование или стерео к моно понижающее микширование могут дополнительно выполняться в формате копирования, по крайней мере, части информации, при генерировании, по крайней мере, части информации соответствующего спектрального компонента фрейма выходящего информационного потока.

Как показало предыдущее описание, степень копирования спектральной информации и/или соответствующие параметры, соотносимые со спектральными компонентами и спектральной информацией (напр., TNS-параметры, SBR-параметры, PNS-параметры), могут быть основаны на разном количестве копий данных и могут определять, следует ли копировать исходную спектральную информацию или ее части. Например, в случае копирования SBR-данных, может быть целесообразно копировать весь фрейм соответствующего информационного потока, чтобы избежать сложного микширования спектральной информации для разных спектральных компонентов. Такое микширование может потребовать повторного (обратного) квантования, что может фактически сократить квантовые шумы.

В отношении TNS-параметров, может быть также целесообразно копировать соответствующие TNS-параметры вместе со спектральной информацией целого фрейма из доминирующего входящего информационного потока в выходящий информационный поток, чтобы избежать повторного (обратного) квантования.

В случае спектральной информации, основанной на PNS, целесообразно осуществить копирование индивидуальных энергетических параметров без копирования исходных спектральных компонентов. К тому же, в этом случае копирование только соответствующих PNS-параметров из доминирующего спектрального компонента фреймов множества входящих информационных потоков в соответствующий спектральный компонент выходящего фрейма выходящего информационного потока происходит без возникновения дополнительного шума квантования. Стоит отметить, что также при повторном (обратном) квантовании энергетического параметра в форму PNS-параметра, может возникнуть дополнительный квантовый шум.

Как указывалось ранее, пример осуществления, описанный выше, может также быть реализован просто путем копирования спектральной информации, касающейся спектрального компонента после сравнения фреймов множества входящих информационных потоков и после определения на основе сравнения для спектрального компонента выходящего фрейма выходящего информационного потока только одного информационного потока в качестве источника спектральной информации.

Алгоритм замещения, выполняемый в рамках психо-акустического модуля 950, анализирует каждую спектральную информацию, касающуюся исходных спектральных компонентов (напр., диапазоны частот) результирующего сигнала, чтобы определить спектральные компоненты с единственным активным компонентом. Для этих диапазонов, квантовые параметры соответствующего входящего информационного потока входящего битового потока могут копироваться из кодирующего устройства без обратного (повторного)кодирования или обратного (повторного) квантования соответствующих спектральных данных для определенного спектрального компонента. В некоторых обстоятельствах все квантуемые данные могут быть взяты из единственного активного входящего сигнала, чтобы сформировать выходящий битовый поток или выходящий информационный поток таким образом, что - при помощи устройства 500 - кодирование входящего информационного потока может быть достигнуто без потерь.

Далее, может быть возможно пропустить такие шаги обработки данных, как психо-акустический анализ внутри кодирующего устройства. Это позволяет сократить процесс кодирования и, тем самым, сократить сложность компьютерной обработки, так как в принципе, в определенных обстоятельствах необходимо осуществить только копирование данных из одного битового потока в другой битовый поток.

Например, в случае с PNS, замещение может быть выполнено, так как факторы шума PNS-кодируемых диапазонов могут быть скопированы из одного из выходящих информационных потоков во входящий информационный поток. Замещение индивидуальных спектральных компонентов соответствующими PNS-параметрами возможно, так как PNS-параметры являются особенными спектральными компонентами, или, другими словами, с большой степенью аппроксимации (приближения, вероятности) независимыми друг от друга.

Однако может оказаться, что слишком жесткое применение описанного алгоритма может привести к ухудшению восприятия звучания или нежелательному уменьшению качества звука. Поэтому, может быть целесообразно сократить замещение до индивидуальных фреймов вместо спектральной информации, касающейся индивидуальных спектральных компонентов. В таком режиме(моде) работы могут быть выполнены оценка несовместимости или определение несовместимости, так же как и анализ замещения. Однако замещение в таком режиме (моде) работы может выполняться только, когда все или, по крайней мере, значительное число спектральных компонентов внутри действующего фрейма способны замещаться.

Хотя это может привести к меньшему числу замещений, внутренняя устойчивость спектральной информации может в некоторых ситуациях быть улучшена, приводя к слегка улучшенному качеству.

В последующем описываются примеры осуществления данного изобретения согласно второму пункту (aspect), согласно которому контрольные параметры, ассоциирующиеся с данными полезной нагрузки соответствующих входящих информационных потоков, принимаются во внимание, контрольные параметры, обозначающие способ, с помощью которого данные полезной нагрузки представляют, по крайней мере, часть соответствующей спектральной информации или спектральной области соответствующих аудио сигналов, в котором в случае, когда контрольные параметры двух входящих информационных потоков равны, новое решение о спектральной области в соответствующем фрейме выходящего информационного потока не принимается, и вместо этого генерирование выходящего информационного потока основывается на решении, уже определенном кодирующими устройствами входящих информационных потоков. В соответствии с некоторыми примерами осуществления, описанными ниже, не производится повторное преобразование соответствующих данных полезной нагрузки назад в иной вид (способ) представления спектральной области, такой как нормальный или простой способ с одним спектральным параметром на время/на спектральный образец.

Как излагалось выше, примеры осуществления согласно данному изобретению основаны на выполнении микширования, которое не производится непосредственно, в том смысле, что все входящие информационные потоки декодируются, что включает обратную трансформацию во временную область, микширование и снова повторное кодирование сигналов. Примеры осуществления данного изобретения основаны на микшировании, производимом в частотной области соответствующего кодека. Потенциальный кодек может быть кодек AAC-ELD, или любой другой кодек с информационным трансформационным интервалом (window). В таком случае, никакая временная/ частотная трансформация не нужна, чтобы иметь возможность микшировать соответствующие данные. Далее, возможен доступ ко всем параметрам битовых потоков, таким как размер шагов квантования и другим параметрам, и эти параметры могут использоваться, чтобы генерировать микшированный выходящий битовый поток.

К тому же, микширование спектральных линий или спектральной информации, касающейся спектральных компонентов может быть выполнено с помощью весового суммирования источника спектральных линий или спектральной информации. Весовые параметры могут быть равны нулю или единице, или в принципе, любому параметру между ними. Значение (параметр) нуля означает, что источники не совместимы и совсем не могут использоваться. Группы линий, такие как полосы диапазона (диапазон) или полосы (диапазоны) масштабных множителей (коэффициентов) могут использовать тот же самый весовой множитель(коэффициент). Весовые множители (например, распределение нулей и единиц) могут варьироваться для спектральных компонентов одного фрейма одного входящего информационного потока. Примеры осуществления, описанные ниже совершенно не обязательно должны использовать весовые множители нуля и единицы в процессе микширования спектральной информации. Могут быть случаи, когда при определенных обстоятельствах, не для одного, а для множества всей спектральной информации фрейма входящего информационного потока, соответствующие весовые множители могут быть отличными от нуля и единицы.

В одном определенном случае все полосы или спектральные компоненты одного источника (входящего информационного потока) соответствуют (устанавливаются, присваиваются) множителю нуля и всем множителям других источников присваивается значение единицы. В этом случае, полный информационный поток одного участника может одинаково копироваться как итоговый микшированный битовый поток. Микшированные множители могут быть вычислены или выделены (определены) на основе более длинных группировок фреймов или последовательности фреймов. Естественно, даже внутри такой последовательности фреймов или внутри одного фрейма, весовые множители могут отличаться для разных спектральных компонентов, как описано выше. В некоторых примерах осуществления весовые множители могут вычисляться и определяться согласно результатам психо-акустической модели.

Такое сравнение может, например, выполняться на основе оценки энергетического соотношения между микшированным сигналом, включающим только некоторые входящие информационные потоки, и полным микшированным сигналом. Этого можно, например, достичь, как описывалось выше, с помощью уравнений (3) и (5). Другими словами, психо-акустическая модель может вычислить энергетическое соотношение r(n) между микшированным сигналом, включающим только некоторые входящие потоки, имеющим энергетический параметр E_f, и полным микшированным сигналом, имеющим энергетический параметр E_c. Энергетическое соотношение r(n) затем вычисляется соответственно уравнению (5) как двадцати кратный логарифм от E_f, деленное на E_c.

Соответственно, подобно предыдущему описанию примеров осуществления с учетом фиг. с 6 по 8, если соотношение достаточно большое, менее доминирующие каналы могут рассматриваться как маскируемые (экранируемые) доминирующими. Таким образом, происходит сокращение несовместимости, означающее, что только те потоки включаются, которые совсем незаметны, к которым применим весовой множитель единицы, в то время как все другие потоки -, по крайней мере, одна спектральная информация одного спектрального компонента - не принимаются во внимание. Другими словами, к ним применяется весовой множитель нуля.

Это может предоставить дополнительное преимущество в том, что эффекты каскадного кодирования уменьшаются, либо не проявляются совсем благодаря сокращению количества шагов пере (повторного) квантования. Так как каждый шаг квантования скрывает значительную опасность сокращения дополнительного квантового шума, общее качество аудио сигнала может, поэтому, быть улучшено.

Подобно вышеописанным примерам осуществления данного изобретения на фиг.6-8, примеры осуществления, описываемые ниже, могут использоваться с конференц системой, которая может, например, быть теле/видео конференц системой с более чем двумя участниками, и может иметь преимущество наличия меньшей сложности по-сравнению с микшированием во временной области, так как можно избежать шагов временного/частотного преобразования и шагов повторного (обратного) кодирования. Более того, эти компоненты не вызывают дальнейшей задержки сигнала, по сравнению с микшированием во временной области, благодаря отсутствию задержки в наборе фильтров.

Фиг.9 показывает упрощенную блок-схему устройства 500 для микширования входящих информационных потоков в соответствии с осуществлением данного изобретения. Большинство основных обозначений было перенесено с примеров на фиг.6-8 для того, чтобы упростить понимание и избежать дублирующих описаний. Другие обозначения были добавлены знаком 1000, для того, чтобы обозначить, что функциональность уже описанного определяется иначе по сравнению с предыдущими примерами на фиг.6-8, - дополнительные функции или альтернативные функции добавлены по сравнению с основной (общей) функцией соответствующего элемента.

На основе первого входящего информационного потока 510-1, и второго входящего информационного потока 510-2, блок обработки данных 1520, содержащийся в устройстве 1500, выполнен так, чтобы генерировать выходящий информационный поток 1530. Первый "и второй входящие информационный потоки 510 каждый содержат фрейм 540-1, 540-2, соответственно, которые в свою очередь содержат контрольные параметры 1545-1, 1545-2, соответственно, которые показывают, каким образом данные полезной нагрузки фреймов 540 представляют, по крайней мере, часть спектральной области или спектральной информации аудио сигнала.

Выходящий информационный поток 530 также содержит выходящий фрейм 1550 с контрольным параметром 555, показывающим подобным образом, как данные полезной нагрузки выходящего информационного потока 550 представляют спектральную информацию в спектральной области аудио сигнала, закодированного в выходящем информационном потоке 530.

Блок обработки данных 1520 устройства 1500 выполнен так, чтобы сравнивать контрольные параметры 1545-1 фрейма 540-1 первого входящего информационного потока 510-1 и контрольные параметр 1545-2 фрейма 540-2 второго входящего информационного потока 510-2 для получения результата сравнения. На основе этого результата сравнения блок обработки данных 1520 далее выполнен (настроен) так, чтобы, генерировать выходящий информационный поток 530, содержащий выходящий фрейм 550, таким образом, что, когда результат сравнения показывает, что контрольные параметры 1545 фреймов 540 первого и второго входящих информационных потоков 510 одинаковы или равны, выходящий информационный фрейм 550 содержит в качестве контрольного параметра 1550 параметр, равный контрольным параметрам 1545 фреймов 540 двух входящих информационных потоков 510. Данные полезной нагрузки, содержащиеся в выходящем фрейме 550, выводятся из соответствующих данных полезной нагрузки фреймов 540 с учетом одинаковых контрольных параметров 1545 фреймов 540 путем обработки в спектральной области, то есть без посещения временной области.

Если, например, контрольные параметры 1545 указывают на специальное кодирование спектральной информации одного или более спектральных компонентов (например, PNS данные), и соответствующие контрольные параметры 1545 двух входящих информационных потоков одинаковы, тогда соответствующая спектральная информация выходящего фрейма 550, соответствующая тому же спектральному компоненту или спектральным компонентам, может быть получена путем обработки соответствующих данных полезной нагрузки в спектральной области даже напрямую, то есть не покидая представления спектральной области. Как будет описано ниже, в случае со спектральным представлением, основанном на PNS, этого можно достичь путем суммирования соответствующих данных PNS, выборочно сопровождаемом процессом нормализации. То есть, PNS-данные ни одного из входящих информационных потоков не преобразуются назад в простое представление (вид) с одним контрольным параметром на спектральный образец.

Фиг.10 показывает более подробную блок-схему устройства 1500, которая отличается от фиг.9 в основном внутренним строением блока обработки данных 1520. Говоря более точно, блок обработки данных 1520 содержит устройство сравнения 1560, которое соединено с соответствующими входами для первого и второго входящих информационных потоков 510 и выполнено так, чтобы сравнивать контрольные параметры 1545 соответствующих фреймов 540. Входящие информационные потоки далее подаются на выборочный (необязательный) преобразователь 1570-1, 1570-2 для каждого из двух входящих информационных потоков 510. Устройство сравнения 1560 также подсоединено к выборочным преобразователям 1570, чтобы передать на них результаты сравнения.

Блок обработки данных 1520 также содержит микшер 1580, который соединен посредством входа с выборочными преобразователями 1570 - или в случае, если один или более преобразователи 1570 не применяются, - с соответствующими входами для входящих информационных потоков 510. Микшер 1580 соединен с выходом выборочного нормализатора 1590, который, в свою очередь, соединен, если применяется, с выходом блока обработки данных 1520 и с выходом устройства 1500, чтобы обеспечить(передать) выходящий информационный поток 530.

Как говорилось выше, устройство сравнения сигналов 1560 выполнено так, чтобы сравнивать контрольные параметры фреймов 1540 двух входящих информационных потоков 510. Устройство сравнения 1560 в случае его применения передает на преобразователи 1570 сигнал, показывающий, являются ли контрольные параметры 1545 соответствующих фреймов 540 одинаковыми или нет. Если сигнал, представляющий результат сравнения, показывает, что два контрольных параметра 1545, по крайней мере, с учетом одного спектрального компонента, одинаковы или равны, преобразователи 1570 не преобразуют соответствующие данные полезной нагрузки, содержащиеся во фреймах 540.

Данные полезной нагрузки, содержащиеся во фреймах 540 входящих информационных потоков 510 будут затем микшироваться микшером 1580 и передаваться на нормализатор 1590, в случае его применения, чтобы выполнить шаг нормализации для того, чтобы результирующие параметры не будут превышать или быть ниже допустимого диапазона(range) параметров. Примеры микширования данных полезной нагрузки будут более подробно описаны ниже в контексте фиг.12A-12C.

Нормализатор сигнала 1590 может применяться в качестве устройства квантования, выполненного так, чтобы осуществлять пере(повторное)квантование данных полезной нагрузки, соответственно их параметрам, и обратно, нормализатор 1590 может также быть выполнен так, чтобы только изменять измерительный множитель (коэффициент), обозначающий распределение шагов квантизации, или абсолютный параметр минимального или максимального уровня квантизации в зависимости от конкретного применения.

В случае, когда устройство сравнения 1560 показывает, что контрольные параметры 1545 отличаются, по крайней мере, с учетом одного или более спектральных компонентов, устройство сравнения 1560 может передать на один или оба преобразователя 1570 соответствующий контрольный сигнал, указывающий на соответствующие преобразователи 1570 для осуществления преобразования данных полезной нагрузки, по крайней мере, одного из входящих информационных потоков 510 в другой входящий информационный поток. В этом случае, преобразователь может быть выполнен так, чтобы одновременно изменять контрольный параметр преобразуемого фрейма таким образом, что микшер 1580 может генерировать выходящий фрейм 550 выходящего информационного потока 530 с контрольным параметром 1555, который равен параметру фрейма 540 двух входящих информационных потоков, который не преобразуется или с общим параметром полезной нагрузки обоих фреймов 540.

Более подробно примеры будут описаны ниже в контексте фиг.12A-12C для различных применений, таких как использование PNS, использование SBR и использование M/S, соответственно.

Следует указать, что примеры осуществления на фиг.9-12C далеко не ограничиваются двумя входящими информационными потоками 1510-1, 1510-2, как показано на фиг.9, 10 и следующей фиг.11. Скорее, они могут быть выполнены так, чтобы обрабатывать множество входящих информационных потоков, содержащих более чем два входящих информационных потока 510. В этом случае, устройство сравнения 1560 может, например, быть выполнено так, чтобы сравнивать подходящее число входящих информационных потоков 510 и фреймов 540, содержащихся в них. Более того, в зависимости от конкретного применения, подходящее число преобразователей 1570 может также быть применено. Микшер 1580 вместе с общим нормализатором 1590 может, очевидно, быть настроен на возрастающее число информационных потоков, подвергаемых обработке.

В случае более чем двух входящих информационных потоков 510, устройство сравнения 1560 может быть выполнено так, чтобы сравнивать все совместимые контрольные параметры 1545 входящих информационных потоков 510, чтобы решить, должен ли выполняться шаг преобразования одним или более выборочно применяемыми преобразователями 1570. Наоборот или вдобавок к этому, устройство сравнения 1560 может быть также выполнено так, чтобы определять набор входящих информационных потоков, подвергаемых преобразованию в преобразователях 1570, когда результат сравнения показывает, что возможно достигнуть преобразования для представления в общем виде данных полезной нагрузки. Например, если другое представление данных полезной нагрузки не требует особого представления, устройство сравнения 1560 может, например, быть выполнено так, чтобы активизировать преобразователи 1570 таким образом, чтобы минимизировать общую сложность. Этого, например, можно достичь на основе предварительных оценок параметров сложности, хранящихся в устройстве сравнения 1560 или доступные в устройстве сравнения 1560 иначе.

Например, если не требуется представления данных полезной нагрузки в определенном виде (иначе), устройство сравнения 1560 может, например, быть выполнено(настроено) так, чтобы активизировать преобразователи 1570 таким образом, чтобы минимизировать общую сложность. Это может, например, быть достигнуто на основе предопределяющих оценок параметров сложности, хранящихся внутри устройства сравнения 1560 или доступных для устройства сравнения 1560 иначе.

Более того, следует отметить, что преобразователь 1570 может, очевидно, не использоваться, когда, например, преобразование в частотной области может при необходимости по-выбору осуществляться микшером 1580. И наоборот, или в дополнение функциональность преобразователей 1570 может также осуществляться микшером 1580.

Далее, следует отметить, что фреймы 540 могут содержать более чем один контрольный параметр, такие как замещение персептивного шума (ЗПШ, PNS), временное изменение шума (ВИШ, TNS) и режимы стерео кодирования. Перед описанием работы устройства, способного обрабатывать, по крайней мере, один из PNS-параметров, TNS-параметров или параметров стерео кодирования, обратимся к фиг.11, которая повторяет фиг.8 за исключением обозначений 1500 и 1520 вместо обозначений 500 и 520, соответственно, для того, чтобы показать, что фиг.8 уже иллюстрирует осуществление изобретения для генерирования выходящего информационного потока из первого и второго входящих информационных потоков, в котором блок обработки данных 520 и 1520, соответственно, может также быть выполнен так, чтобы осуществлять функционирование, описанное при помощи фиг.9 и 10.

В частности, внутри блока обработки данных 1520 устройство микширования 800, содержащее спектральный микшер 810, оптимизирующий модуль 820, и SBR микшер 830, выполняет выше упомянутые функции, описанные при помощи на фиг.9 и 10. Как отмечалось ранее, контрольные параметры, содержащиеся во фреймах входящих информационных потоков, могут в равной степени быть PNS-параметрами, SBR-параметрами, или контрольными данными, касающимися стерео кодирования, другими словами, M/S-параметры. Если соответствующие контрольные параметры являются одинаковыми или равными, микширующее устройство 800 может обрабатывать данные полезной нагрузки, чтобы генерировать соответствующие данные полезной нагрузки для дальнейшей обработки, чтобы они содержались в выходящем фрейме выходящего информационного потока. В этом случае, как уже говорилось выше, так как SBR позволяет использовать два кодирующих стерео канала, кодировать левый и правый каналы отдельно, также как и кодировать в сдвоенном канале (С), согласно осуществлению данного изобретения, обработка соответствующих параметров SBR или, по крайней мере, их части, может содержать обработку С-элементов параметров SBR, чтобы получить оба, левый и правый элементы SBR-параметра, или наоборот, в зависимости от результатов сравнения и результатов определения. Подобно этому, степень обработки спектральной информации и/или соответствующих параметров, соотносимых со спектральными компонентами и спектральной информацией (например, TNS-параметрами, SBR-параметрами, PNS-параметрами) может быть основана на различном количестве подвергаемых обработке данных, и может также определять, требуется ли осуществить декодирование базовой спектральной информации или ее частей. Например, в случае копирования SBR-данных, может быть целесообразно, обработать целый фрейм соответствующего потока данных, чтобы избежать сложного микширования спектральной информации для различных спектральных компонентов. Такое микширование может потребовать обратного(повторного)квантования, которое может действительно сократить шум квантования. В отношении TNS-параметров может также быть целесообразно, перераспределить (разложить,) соответствующие TNS-параметры вместе со спектральной информацией целого фрейма из доминирующего входящего информационного потока в выходящий информационный поток, чтобы предотвратить обратное(повторное)квантование. В случае со спектральной информацией, основанной на PNS, может быть целесообразной обработка индивидуальных энергетических параметров без копирования базовых спектральных компонентов. К тому же, в этом случае обработка только соответствующего PNS-параметра из доминирующего спектрального компонента фреймов множества входящих информационных потоков в выходящий фрейм выходящего информационного потока происходит без появления (возникновения) дополнительного шума квантования. Следует отметить, что также при повторном квантовании энергетического параметра в форме PNS-параметра, может появиться дополнительный квантовый шум.

При помощи фиг.12A-12C три различных вида микширования данных полезной нагрузки на основе сравнения соответствующих контрольных параметров будут описаны более подробно. Фиг.12A показывает пример применения устройства 500 на основе PNS, в то время как, фиг.12B показывает подобное применение на основе SBR, и Фиг.12C показывает применение на основе M/S.

Фиг.12A показывает пример с первым и вторым входящим информационным потоком 510-1, 510-2, соответственно, с соответствующими входящими фреймами 540-1,540-2 и соответствующими контрольными параметрами 545-1,545-2. Как показано стрелками на фиг.12A. контрольные параметры 1545 фрейма 540 входящих информационных потоков 510 показывают, что спектральный компонент не описывается с учетом спектральной информации напрямую, но с учетом энергетического параметра источника шума, или другими словами, с учетом соответствующего PNS-параметра. Конкретизируем, что фиг.12A показывает первый PNS-параметр 2000-1 и фрейм 540-2 второго входящего информационного потока 510-2, содержащего PNS-параметр 2000-2

Так как, как рассматривалось на фиг.12A, контрольные параметры 1545 двух фреймов 540 двух входящих информационных потоков 510 показывают, что определенный спектральный компонент должен быть заменен соответствующим PNS-параметром 2000, блок обработки данных 1520 и устройство 1500, как описано выше, может микшировать PNS-параметры 2000-1, 2000-2, чтобы получить PNS-параметры 2000-3 выходящего фрейма 550, включаемый в выходящий информационный поток 530.

Соответствующий контрольный параметр 1555 выходящего фрейма 550 вначале также показывает, что соответствующий спектральный компонент должен быть заменен микшированным PNS-параметром 2000-3. Процесс микширования показан на фиг.12A с помощью изображения PNS-параметра 2000-3 в виде объединенных PNS-параметров 2000-1, 2000-2 соответствующих фреймов 540-1, 540-2.

Однако определение PNS-параметра 2000-3, который также соотносится с PNS-выходящим параметром, может быть произведено на основе линейной комбинации, соответствующей выражению

$P N S = \sum_{i = 1}^{N} a_{i} \cdot P N S (i), (6)$

где PNS(i) - соответствующий PNS-параметр входящего информационного потока i, N - число входящих информационных потоков, которые необходимо микшировать и a_i - соответствующий весовой параметр. В зависимости от конкретного применения весовой параметр может быть выбран равным

$a_{1} = \dots = a_{N} . (7)$

При непосредственном применении, показанном на фиг.12A может быть так, что все весовые параметры а_i равны 1, другими словами,

$a_{1} = \dots = a_{N} = 1. (7)$

В случае, если нормализатор 1590 не используется, как показано на фиг.10, весовые параметры могут быть равно определены как равные 1/N, так как в уравнении

$a_{1} = \dots = a_{N} = \frac{1}{N} (9)$

Параметр N здесь является числом входящих информационных потоков, которые необходимо микшировать, и числом входящих информационных потоков, подаваемых на устройство 1500, то есть является одним и тем же числом. Стоит отметить, что в целях упрощения могут также применяться различные процессы нормализации в отношении весовых параметров a_i.

Другими словами, в случае активированных инструментов (оборудования) PNS со стороны участника коммуникации, параметр энергетического шума заменяет соответствующий измерительный параметр вместе с квантовыми данными в спектральном компоненте (например, спектральной полосой диапазона). Кроме этого параметра никакие другие данные не будут переданы инструментами PNS в выходящий информационный поток. В случае микширования PNS-спектральных компонентов, это может привести к двум определенным ситуациям.

Как описывалось выше, когда каждый соответствующий спектральный компонент всех фреймов 540 соотносимых входящих информационных потоков выражен с помощью PNS-параметров. Так как частотные данные PNS-соотносимого описания частотного компонента (например, полосы частот) напрямую выводятся из параметра энергетического шума (PNS-параметра), соответствующие параметры могут микшироваться простым добавлением соответствующих параметров (величин). Микшированные PNS-параметры затем генерируют внутри PNS-декодера с принимающей стороны эквивалентное частотное разрешение, которое необходимо микшировать с чистыми спектральными параметрами других спектральных компонентов. В случае если во время микширования осуществляется процесс нормализации, может быть удобно использовать подобный нормализующий параметр в отношении весовых параметров а_i. Например, при нормализации с параметром, пропорциональным 1/N, весовой параметр a_i может быть выбран согласно уравнению (9).

В случае если контрольные параметры 1545, по крайней мере, одного входящего информационного потока 510 отличается в отношении спектрального компонента, и если соответствующие входящие информационные потоки не удаляются из-за низкого энергетического уровня, может быть целесообразно для PNS-декодера, показанного на фиг.11, генерировать спектральную информацию или спектральные данные, основанные на PNS-параметрах и микшировать соответствующие данные в рамках работы спектрального микшера 810 микширующего устройства вместо микширования PNS-параметров в рамках работы оптимизирующего модуля 820.

Благодаря независимости спектральных компонентов PNS в отношении друг друга, и в отношении обще-определяющих параметров выходящего информационного потока, так же как и входящих информационных потоков, может быть выполнен выбор способа микширования на частотной основе. В случае, если такое основанное на PNS микширование невозможно, может быть целесообразно осуществить повторное кодирование соответствующего спектрального компонента PNS-кодирующим устройством 1880 после микширования в спектральной области.

Фиг.12B показывает дальнейший пример принципа работы осуществления согласно данному изобретению. Выражаясь точнее, фиг.12B показывает случай с двумя входящими информационными потоками 540-1, 540-2 и их контрольными параметрами 1545-1, 1545-2. Фреймы 540 содержат SBR данные для упомянутых выше спектральных компонентов, так называемую перекрестную (cross-over) частоту f_x. Контрольный параметр 1545 содержит информацию, используются ли вообще SBR-параметры, и информацию, касающуюся фактической координатной сетки (grid) фрейма или временной/частотной сетки.

Как описывалось выше, инструментарий SBR отражает в верхней спектральной полосе над частями спектра с перекрестной частотой f_x с помощью копирования нижней части спектра, которая кодируется иначе. Инструментарий SBR определяет количество временных интервалов в каждом фрейме SBR, который равен фреймам 540 входящего информационного потока 510, содержащим также дальнейшую спектральную информацию. Временные интервалы разделяют диапазон (спектр, range) частот инструментов SBR на малые равноудаленные полосы частот или спектральные компоненты. Количество этих полос частот в SBR-фрейме будет определяться отправителем или инструментом SBR, предшествующим кодированию. В случае применения MPEG-4 AAC-ELD, количество временных интервалов равно 16.

Временные интервалы включаются в так называемые пакеты так, что каждый пакет содержит, по крайней мере, два или более временных интервала, образующих соответствующую группу. Каждый пакет приписывается определенному количеству частотных SBR-данных. Во фреймовой сетке координат или временной/частотной сетке хранятся количество и длина ячеек временных интервалов индивидуальных пакетов.

Частотное разрешение индивидуальных пакетов определяет, как много энергетических данных SBR вычисляется для пакета и соответственно в нем хранится. Инструментарий SBR отличается только между высоким и низким разрешением, причем пакет с высоким разрешением содержит в два раза больше параметров, чем пакет с низким разрешением. Количество частотных параметров или спектральных компонентов для пакетов с высоким или низким разрешением зависит от дальнейших параметров кодирующего устройства, таких как битовая скорость, дискретная частота и т.д.

В контексте MPEG-4 AAC ELD инструментарий SBR часто использует от 16 до 14 параметров в отношении пакета с высоким разрешением.

Из-за динамического перемещения фрейма 540 с соответствующим количеством энергетических параметров с учетом частоты могут возникать переходные состояния/скачки (transient). В случае, когда переходное явление присутствует во фрейме, SBR-кодирующее устройство разделяет соответствующий фрейм на подходящее количество пакетов. Такое распределение стандартизировано в случае применения SBR-инструментария с кодеком AAC ELD и зависит от места переходной транспозиции в ячейках временных интервалов. Во многих случаях, результирующая сетка фрейма или временная/частотная сеть содержит три пакета, где присутствует переходное явление. Первый пакет, начальный пакет, содержит начало фрейма до временного интервала, получающего переходное явление, имеющего индекс временного интервала равный нулю, перемещенный к -1. Второй пакет содержит длину двух временных интервалов, включающих переход от индекса временного интервала, перемещенный (замененный) на+2.

Однако минимальная длина пакета равна двум временным интервалам. Как следствие, фреймы с переходным явлением около границы могут, очевидно, содержать только два пакета. В случае если во фрейме не присутствуют переходные явления, временные интервалы распределяются по пакетам с равной длиной.

Фиг.12B показывает такую временную/частотную сеть или фреймовую сетки внутри фрейма 540. В случае если контрольные параметры 1545 показывают, что те же самые SBR временные сетки или временные/частотные сетки присутствуют в двух фреймах 540-1, 540-2, соответствующие SBR-данные могут быть скопированы способом, подобным вышеописанному, в контексте уравнений с(6) по (9). Другими словами, в таком случае SBR-инструменты микширования или

SBR-микшер 830, как показано на фиг.11, могут копировать временную/частотную сетку или фреймовую сетку соответствующих входящих информационных потоков в выходящий фрейм 550 и вычислять соответствующие энергетические параметры согласно уравнениям с (6) по (9). Другими словами, SBR-энергетические данные фреймовой сетки могут микшироваться просто суммированием соответствующих данных и, дополнительно, нормализацией соответствующих данных.

Фиг.12C показывает дальнейший пример функционирования осуществления согласно данному изобретению. Говоря точнее, фиг.12C показывает применение M/S. Снова, фиг.12C показывает два входящих информационных потока 510 вместе с фреймами 540 и соответствующими контрольными параметрами 545, показывающими вид представления данных полезной нагрузки во фрейме 540, по крайней мере, с учетом одного спектрального компонента.

Каждый из фреймов 540 содержит аудио данные или спектральную информацию двух каналов, первого канала 2020, и второго канала 2030. В зависимости от контрольного параметра 1545 соответствующего фрейма 540, первый канал 2020 может быть, например, левым каналом или средним каналом, в то время как второй канал 2030 может быть правым каналом стерео сигнала или боковым каналом. Первый из кодирующих режимов часто называют LR- режимом (LR-mode), в то время как второй режим часто обозначают как M/S-режнмом (M/S-mode).

В M/S-режиме, который иногда также называют объединенный стерео, средний канал (М) определяется как пропорциональный сумме левого (Л) и правого (П) каналов.

Часто дополнительный параметр ½ включается в определение, так, что средний канал содержит обе, временную область и частотную область, среднестатистический параметр двух стерео каналов.

Боковой канал обычно определяется, будучи пропорциональным, разности двух стерео каналов, а именно, пропорциональным разности левого канала (Л) и правого канала (П). Иногда также дополнительный параметр ½ включается таким образом, что боковой канал фактически представляет собой половину параметра разности (отклонения) между каналами стерео сигнала, или отклонения от среднего канала. Соответственно, левый канал может быть реконструирован (восстановлен) с помощью суммирования среднего и бокового канала, в то время как правый канал может быть получен путем вычитания бокового канала из среднего канала.

В случае, когда для фреймов 540-1 и 540-2 используется такое же стерео кодирование (L/R или M/S), повторное преобразование каналов во фрейме может не производиться, позволяя осуществлять прямое микширование в соответствующую L/R-или M/S- кодируемую область.

В этом случае, микширование может снова осуществляться напрямую в частотную область, приводя к фрейму 550, содержащему выходящий информационный поток 530, имеющий соответствующий контрольный параметр 1555 со значением равным контрольным параметрам 1545-1, 1545-2 двух фреймов 540. Выходящий фрейм 550 содержит, соответственно, два канала 2020-3, 2020-3, полученных из первого и второго каналов фреймов входящего информационного потока.

В случае если контрольные параметры 1545-1, 1545-2 двух фреймов 540 не равны, может быть целесообразно преобразовать один из фреймов в другой вид (представление) на основе описанного выше процесса. Контрольный параметр 1555 выходящего информационного потока 550 может быть установлен согласно величине, показательной для преобразуемого фрейма.

Согласно примерам осуществления данного изобретения, для контрольных параметров 1545, 1555 может быть возможным обозначение вида (представления) целого фрейма 540, 550 соответственно, или соответствующие контрольные параметры могут быть определяемыми частотным компонентом.

Если в первом случае каналы 2020, 2030 кодируются над целым фреймом одним из особых способов, во втором случае, в принципе, спектральная информация с учетом спектрального компонента может кодироваться по-другому, естественно, одним из контрольных параметров 1545 могут быть также описаны подгруппы спектральных компонентов.

В добавление к этому, в рамках психо-акустического модуля 950 может быть выполнен алгоритм замещения, чтобы проверить каждую из частей спектральной информации, касающуюся базовых спектральных компонентов (например, полосу частот) результирующего сигнала, чтобы определить спектральные компоненты только с одним активным компонентом. Для этих полос, квантовые параметры (параметры квантования) соответствующего входящего информационного потока входящего битового потока могут быть скопированы из кодирующего устройства без повторного кодирования или повторного квантования соответствующих спектральных данных для определенного спектрального компонента. В некоторых обстоятельствах все данные квантования могут быть взяты из одного активного входящего сигнала, чтобы образовать выходящий битовый поток или выходящий информационный поток таким образом, что - с учетом устройства 1500 - может быть достигнуто кодирование входящего информационного потока без потерь.

Более того, возможно также не выполнять шаги обработки, такие как психо-акустический анализ внутри кодирующего устройства. Это позволяет сократить процесс кодирования и, тем самым, уменьшить компьютерную сложность, так как при определенных условиях, в принципе, необходимо выполнить только копирование данных из одного битового потока в другой битовый поток.

Например, в случае с PNS, замещение может быть выполнено, так как параметры шума PNS-кодируемой полосы частот могут копироваться из одного выходящего информационного потока в другой выходящий информационный поток.

Однако может случиться так, что слишком жесткое применение описанного алгоритма может привести к ухудшению восприятия звучания или нежелательному уменьшению качества. Поэтому, может быть целесообразно, ограничить замещение индивидуальных фреймов, скорее, чем спектральной информации, касающейся индивидуальных спектральных компонентов. В таком режиме работы оценка несовместимости или определение несовместимости, так же как анализ замещения могут выполняться в неизменном виде. Однако в данном режиме работы замещение может быть выполнено только, когда все или, по крайней мере, значительное число спектральных компонентов внутри активного фрейма являются способными к замещению.

Несмотря на то, что это может привести к меньшему числу замещений, внутренняя мощность (интенсивность) спектральной информации может в некоторых случаях быть улучшена, что приведет к небольшому улучшению качества.

Примеры осуществления, описанные выше, естественно, отличаются в зависимости от применения. Несмотря на то, что в предыдущих примерах осуществления были описаны устройства кодирования и декодирования Хуфмана как единственная энтропийная кодирующая система, другие энтропийные кодирующие схемы могут также использоваться. Более того, использование энтропийного кодирующего устройства и энтропийного декодера далеко не всегда необходимо. Подобно этому, несмотря на то, что описание предыдущих примеров осуществления в основном опиралось на кодек АСС-ELD, другие кодеки также могут применяться для передачи входящих информационных потоков и для декодирования выходящего информационного потока со стороны участника коммуникации. Например, может применяться любой кодек, базирующийся на одном окне без блоковой длины переключения.

Как показывают предыдущие описания примеров осуществления на фиг. с 8 по 11, модули, описанные в них, также не являются обязательными. Например, устройство согласно осуществлению данного изобретения, может просто функционировать с помощью оперирования (обработки) спектральной информацией во фреймах.

Также следует отметить, что примеры осуществления, описанные выше с учетом фиг. с 6 по 12B могут быть реализованы по-разному. Например, устройство 500/1500 для микширования множества входящих информационных потоков и его блок обработки данных 520/1520 могут быть осуществимы (выполнены) на основе дискретных электрических и электронных приборов, таких как резисторы, транзисторы, индукторы и тому подобное. Более того, примеры осуществления согласно данному изобретению могут также быть выполнимы на основе только интегральных схем, например, в форме SOC (SOC - система на одном чипе), в процессорах, таких как CPU (CPU = центральный блок обработки данных), GPU (CPU = графический блок обработки данных) и других интегральных схемах (IC), таких как специально применимые интегральные схемы (ASIC).

Также следует отметить, что электронные приборы, будучи частью дискретного применения или частью интегральной схемы, могут также использоваться для разных целей и разных функций при применении устройства согласно осуществлению данного изобретения. Естественно, комбинация схем на основе интегральных схем или дискретных схем может также использоваться, чтобы применить осуществление согласно данному изобретению.

Учитывая блок обработки данных, примеры осуществления согласно данному изобретению могут также применяться на основе компьютерных программ, программного обеспечения, или программ, которые выполняются в блоке обработки данных.

Другими словами, в зависимости от требований конкретного применения примеров осуществления патентоспособных способов, примеры осуществления патентоспособных способов могут применяться как в оборудовании, так и в программном обеспечении. Применение может быть выполнено с использованием цифрового носителя, в частности конкретного диска, CD или DVD, имеющего хранящиеся на нем электронно считываемые сигналы, которые работают совместно с запрограммированным компьютером или блоком обработки данных так, что выполняется осуществление инновационного способа. Обобщая сказанное, осуществление согласно данному изобретению, поэтому, является компьютерной программой с программным кодом, хранящимся на машиночитаемом носителе, программным кодом, способным выполнять осуществление патентоспособного способа, когда компьютерная программа выполняется компьютером или процессором (блоком обработки данных). Другими словами, осуществление патентоспособных способов является компьютерной программой, имеющей программный код для выполнения, по крайней мере, одного примера осуществления патентоспособного способа, когда программа выполняется компьютером или процессором. Может быть использован процессор компьютера, чип-карты, карты со встроенным микропроцессором, специально применимых интегральных схем (ASIC), систем на одном чипе (SOC), или интегральной схемы (1C).

Список условных обозначений

100 Конференц система

110 Вход

120 Декодер

130 Сумматор

140 Кодирующее устройство

150 Выход

160 Конференц терминал

170 Кодирующее устройство

180 Декодер

190 Временной/частотный преобразователь

200 Устройство квантования/кодирующее устройство

210 Декодер/Устройство пере(повторного) квантования

220 Частотный/временной преобразователь

250 Информационный поток

260 Фрейм

270 Блоки дальнейшей информации

300 Частота

310 Полоса частот

500 Устройство

510 Входящий информационный поток

520 Блок обработки данных Processing unit

530 Выходящий информационный поток

540 Фрейм

550 Выходящий фрейм

560 Спектральный компонент

570 Стрелка

580 Прерывистая линия

700 Декодер битового потока

710 Считывающее устройство битового потока

720 Кодирующее устройство

730 Устройство пере(повторного) квантования

740 Счетчик (масштабирующее устройство)

750 Первый блок

760 Второй блок

770 Стерео декодер

780 PNS-декодер

790 TNS-декодер

800 Устройство микширования

810 Спектральный микшер

820 Оптимизирующий модуль

830 SBR-микшер

850 Кодирующее устройство битового потока

860 Третий блок

870 TNS-кодирующее устройство

880 PNS-кодирующее устройство

890 Стерео кодирующее устройство

900 Четвертый блок

910 Счетчик (масштабирующее устройство)

920 Устройство квантования

930 Кодирующее устройство Хуфмана

940 Пишущее устройство битового потока

950 Психо-акустический модуль

1500 Устройство

1520 Блок обработки данных

1545 Контрольный параметр

1550 Выходящий фрейм

1555 Контрольный параметр

1. Устройство (1500) для генерирования выходящего информационного потока (530) из первого входящего информационного потока (510-1) и из второго входящего информационного потока (510-2), в котором первый и второй входящие информационные потоки (510) каждый содержат фрейм (540), в которых каждый фрейм (540) содержит контрольный параметр (1545) и соответствующие данные полезной нагрузки, контрольный параметр обозначает способ представления данных полезной нагрузки, по крайней мере, части спектральной области аудиосигнала, содержащий блок обработки данных (1520), выполненный так, чтобы сравнивать контрольный параметр (1545) фрейма (540) первого входящего информационного потока (510-1) и контрольный параметр (1545) фрейма (540) второго входящего информационного потока (510-2), чтобы получить результат сравнения, при этом блок обработки данных (1520) выполнен так, что если результат сравнения показывает, что контрольные параметры фрейма первого и второго информационных потоков идентичны, генерирование выходящего информационного потока (530), содержащего выходящий фрейм (550), происходит таким образом, что выходящий фрейм содержит контрольный параметр (1555), идентичный такому же параметру фрейма первого и второго входящих информационных потоков, и данные полезной нагрузки, исходящей из данных полезной нагрузки фреймов (540) первого и второго информационных потоков (510) путем обработки аудиоданных в спектральной области.

2. Устройство (1500) по п.1, при котором блок обработки данных (1520) выполнен так, что контрольный параметр (1545) фрейма первого и второго входящих информационных потоков (510) относится к, по крайней мере, только одному спектральному компоненту, и при котором данные полезной нагрузки, соотносимые с контрольным параметром, представляют описание аудиосигнала с учетом, по крайней мере, одного спектрального компонента.

3. Устройство (1500) по п.2, при котором блок обработки данных (1520) выполнен так, что контрольный параметр (1545) фрейма (540) первого входящего информационного потока (510-1) и контрольный параметр (1545) фрейма второго входящего информационного потока (510-2) и соответствующие данные полезной нагрузки фрейма первого и второго входящих информационных потоков относятся к одному и тому же спектральному компоненту.

4. Устройство (1500) по п.1, при котором блок обработки данных (1520) выполнен так, что первый входящий информационный поток и второй входящий информационный поток (510) каждый содержат последовательность фреймов (540) с учетом времени, и при котором блок обработки данных (1520) выполнен так, чтобы сравнивать контрольные параметры (1545) фреймов первого и второго информационных потоков (510) для фреймов, соотносимых с общим временным индексом фреймов с учетом последовательности фреймов.

5. Устройство (1500) по п.1, при котором блок обработки данных (1520) выполнен так, чтобы трансформировать данные полезной нагрузки фрейма (540) одного из (первого и второго) информационных потоков (510) в представление данных полезной нагрузки фрейма другого (первого и второго) информационного потока (510), в то время как результат сравнения показывает, что контрольные параметры (1545) первого и второго информационных потоков (510) не идентичны, перед генерированием выходящего фрейма (550), содержащего контрольный параметр (555), идентичный параметру фрейма (540) другого из двух входящих информационных потоков (510), и данные полезной нагрузки, исходящие из данных полезной нагрузки фреймов одного из входящих информационных потоков, и трансформированное представление другого входящего информационного потока путем обработки аудиоданных в спектральной области.

6. Устройство (1500) по п.1, при котором блок обработки данных (1520) выполнен так, чтобы генерировать выходящий фрейм таким образом, что дистрибуция уровней квантования сохраняется с учетом, по крайней мере, части одного из фреймов первого и второго входящих информационных потоков.

7. Устройство (1500) по п.6, при котором часть, по крайней мере, одного фрейма соответствует только одному спектральному компоненту, к которому относятся контрольный параметр и данные полезной нагрузки, соотносимые с данным контрольным параметром.

8. Устройство (1500) по п.1, при котором блок обработки данных (1520) выполнен так, что данные полезной нагрузки фрейма первого входящего информационного потока и данные полезной нагрузки второго входящего информационного потока каждый содержат представление первого аудиоканала и второго аудиоканала аудиосигнала в спектральной области, и при котором контрольный параметр фрейма первого входящего информационного потока и контрольный параметр второго входящего информационного потока показывает, является ли первый канал левым каналом (L-канал), а второй канал правым каналом (R-канал) аудиосигнала или первый канал является средним каналом (М-канал), а второй канал боковым каналом (S-канал) аудиосигнала.

9. Устройство (1500) по п.1, при котором блок обработки данных (5120) выполнен так, что контрольные параметры (1545) фреймов (540) первого и второго входящих информационных потоков (510) показывают, содержат ли данные полезной нагрузки, соотносимые с соответствующими контрольными параметрами, зависящий от энергии параметр источника шума.

10. Устройство (1500) по п.9, при котором зависящий от энергии параметр является параметром вытеснения персептивного шума (PNS).

11. Устройство (1500) по п.1, при котором блок обработки данных (1520) выполнен так, что контрольный параметр (1545) фрейма (540) первого входящего информационного потока (510-1) и контрольный параметр (1545) фрейма (540) второго входящего информационного потока (510-1) содержит информацию, касающуюся пакета (envelope) данных SBR, содержащихся в данных полезной нагрузки, соотносимых с вышеупомянутым контрольным параметром, и при котором блок обработки данных (520) выполнен так, чтобы генерировать выходящий информационный поток из SBR спектральной области, в то время как результат сравнения показывает на идентичные пакеты.

12. Устройство (500) по п.1, при котором блок обработки данных (520) выполнен так, чтобы сравнивать фреймы первого и второго входящих информационных потоков (510), при котором блок обработки данных (520) выполнен так, чтобы выделить (определить), основываясь на сравнении фреймов (540), единственный (только один) входящий информационный поток (510) из первого и второго входящих информационных потоков, и при котором блок обработки данных (520) выполнен так, чтобы генерировать выходящий информационный поток (530) путем копирования данных полезной нагрузки и контрольного параметра (1545) фрейма (540) конкретного (определенного) входящего потока.

13. Устройство (1500) по п.1, при котором устройство (500), предназначенное для обработки множества входящих информационных потоков (510), содержащих более чем два входящих информационных потока (510), множество входящих информационных потоков (510), содержащих первый и второй входящие информационные потоки.

14. Устройство (1500) по п.1, при котором блок обработки данных (520) выполнен так, чтобы генерировать выходящий информационный поток путем вывода данных полезной нагрузки выходящего потока информации из данных полезной нагрузки фреймов первого и второго входящих информационных потоков, оставаясь в рамках способа представления спектральной области, как показано контрольным параметром.

15. Способ для генерирования выходящего потока информации (530) из первого информационного потока (510) и из второго информационного потока (510), при котором первый и второй информационные потоки (510) каждый содержат фреймы (540), при котором фрейм (540) содержит контрольный параметр (1545) и соответствующие данные полезной нагрузки, контрольный параметр (1545), показывающий каким образом данные полезной нагрузки представляют, по крайней мере, часть спектральной области аудиосигнала, включающий сравнение контрольного параметра (1545) фрейма (540) первого входящего информационного потока (510-1) и контрольного параметра (1545) фрейма (540) второго входящего информационного потока (510-2), чтобы получить результат сравнения; и если результат сравнения показывает, что контрольные параметры фреймов первого и второго информационных потоков идентичны, генерирование выходящего информационного потока (530), содержащего выходящий фрейм (550), происходит таким образом, что выходящий фрейм содержит контрольный параметр (1555), идентичный такому же параметру фрейма (540) первого и второго входящих информационных потоков (510), и данные полезной нагрузки, исходящей из данных полезной нагрузки фреймов первого и второго информационных потоков (510) путем обработки аудиоданных в спектральной области.

16. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществление способа генерирования выходящего информационного потока по п.15, когда компьютерная программа выполняется компьютером или процессором.

Изобретение относится к области звукового кодирования, в частности к кодированию на основе энтропии. .

Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала // 2487426

Изобретение относится к алгоритмам параметрического кодирования звуковых сигналов. .

Способ кодирования сигнала и способ декодирования сигнала // 2486610

Изобретение относится к способу, устройству и системе для кодирования и декодирования сигналов. .

Квантователь, кодер и их способы // 2486609

Изобретение относится к вычислительной технике. .

Квантователь, кодер и их способы // 2486609

Изобретение относится к вычислительной технике. .

Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений // 2485606

Изобретение относится к области кодирования аудио сигналов, а именно к области кодирования аудио сигналов с низким битрейтом. .

Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования // 2485605

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала на базе доступного многоканального понижающего микширования и вспомогательных управляющих данных.

Способ и устройство для кодирования и декодирования, основывающегося на объектах аудиосигнала // 2484543

Устройство кодирования стереофонических сигналов, устройство декодирования стереофонических сигналов и реализуемые ими способы // 2484542

Изобретение относится к устройствам и способам кодирования и декодирования, которые используются для того, чтобы кодировать стереофоническую речь. .

Устройство кодирования, устройство декодирования и способ для их работы // 2483367

Изобретение относится к устройствам кодирования, декодирования и способу для их работы, используемым в системе связи для кодирования и передачи сигналов. .

Кодирующее устройство, декодирующее устройство и способ // 2488897

Изобретение относится к вычислительной технике

Кодирующее устройство, декодирующее устройство и способ // 2488897

Изобретение относится к вычислительной технике

Основанное на преобразовании кодирование/декодирование с адаптивными окнами // 2488898

Компенсатор и способ компенсации потери кадров звукового сигнала в области модифицированного дискретного косинусного преобразования // 2488899

Устройство декодирования звукового сигнала и способ регулирования баланса устройства декодирования звукового сигнала // 2491656

Способы и устройства для эффективного использования поэтапно передаваемой информации в кодировании и декодировании звука // 2491657

Устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен // 2492530

Устройство, способ и компьютерная программа для обеспечения набора пространственных указателей на основе сигнала микрофона и устройство для обеспечения двухканального аудиосигнала и набора пространственных указателей // 2493617

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации. Анализатор сигнала конфигурируют для получения информации энергии компонента и информации направления на основе двухканального сигнала микрофона таким образом, что информация энергии компонента описывает оценки энергий компонента прямого звука двухканального сигнала микрофона и компонента рассеянного звука двухканального сигнала микрофона, и таким образом, что информация направления описывает оценку направления, из которого приходит компонент прямого звука двухканального сигнала микрофона. Генератор дополнительной пространственной информации конфигурируют для сопоставления информации энергии компонента и информации направления с информацией пространственных указателей, которая описывает набор пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов. Технический результат - создание эффективной в вычислительном отношении концепции для получения информации пространственных указателей, сохраняя усилие на преобразование звука достаточно малым. 5 н. и 8 з.п. ф-лы, 21 ил.

Усовершенствованное гармоническое преобразование // 2493618

Настоящее изобретение относится к преобразованию сигналов во времени и/или по частоте и, в частности, к кодированию звуковых сигналов. Конкретнее, настоящее изобретение относится к способам высокочастотной реконструкции (HFR), включающим гармонический преобразователь в частотной области. Техническим результатом является повышение надежности системы преобразования сигнала, а также обеспечение улучшенного гармонического преобразования при малой дополнительной сложности. Описаны способ и система для генерирования преобразованного выходного сигнала из входного сигнала с использованием коэффициента преобразования Т. Система включает окно анализа длиной La, извлекающее кадр входного сигнала, и блок анализирующей трансформации порядка М, трансформирующий дискретные значения в М комплексных коэффициентов. М зависит от коэффициента преобразования Т. Система также включает блок нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием коэффициента преобразования Т, блок синтезирующей трансформации порядка М, трансформирующий измененные коэффициенты в М измененных дискретных значений, и окно синтеза длиной Ls, генерирующее кадр выходного сигнала νa(n). 6 н. и 31 з.п. ф-лы, 12 ил.

Способ кодирования аудиосигнала, способ декодирования аудиосигнала, устройство кодирования, устройство декодирования, система обработки аудиосигнала, программа кодирования аудиосигнала и программа декодирования аудиосигнала // 2493619

Изобретение относится к способу и устройству кодирования аудиосигнала и к способу и устройству декодирования аудиосигнала. Сущность состоит в том, что когда кадр, непосредственно предшествующий целевому кадру кодирования, подлежащий кодированию с помощью первого модуля кодирования, работающему согласно схеме кодирования с линейным предсказанием, кодируется с помощью второго модуля кодирования, работающего согласно схеме кодирования, отличной от схемы кодирования с линейным предсказанием, целевой кадр кодирования может быть кодирован согласно схеме кодирования с линейным предсказанием с помощью инициализации внутреннего состояния первого модуля кодирования. Вследствие этого может быть реализована обработка кодирования, выполняемая согласно множеству схем кодирования, включающих в себя схему кодирования с линейным предсказанием и схему кодирования, отличную от схемы кодирования с линейным предсказанием. Технический результат - улучшение качества речи. 7 н.п. ф-лы, 5 ил.