Декодер для декодирования мультимедийного сигнала и кодер для кодирования вторичных мультимедийных данных, содержащих метаданные или управляющие данные для первичных мультимедийных данных

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении обработки мультимедийного сигнала, содержащего метаданные или управляющие данные. Кодер для кодирования вторичных мультимедийных данных, содержащих метаданные или управляющие данные для первичных мультимедийных данных, содержит модуль группировки для группировки потока битов вторичных мультимедийных данных, чтобы формировать сгруппированные вторичные мультимедийные данные, представляющие слова данных; формирователь опорных сигналов для формирования опорного шаблона, указывающего опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных; и компоновщик потоков, содержащий фильтр формирования импульсов, чтобы подвергать фильтрации нижних частот слова данных или опорный шаблон, чтобы получать импульсы данных, содержащие длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом кодер сконфигурирован с возможностью выводить поток цифровых слов в качестве вторичных мультимедийных данных. 8 н. и 34 з.п. ф-лы, 27 ил.

 

Подробное описание изобретения

Настоящее изобретение относится к декодеру для декодирования мультимедийного сигнала и к кодеру для кодирования вторичных мультимедийных данных, содержащих метаданные или управляющие данные для первичных мультимедийных данных.

Другими словами, настоящее изобретение показывает способ и устройство для распространения управляющих данных или метаданных по цифровому аудиоканалу. Вариант осуществления показывает удобную и надежную передачу управляющих данных или метаданных, которые прилагаются к аудиосигналу, в частности, в телевизионных центрах, системах или сетях с использованием потоков аудиобитов с PCM (импульсно-кодовой модуляцией) на основе стандарта AES3 (AES: Общество звукоинженеров), встроенных в видеосигналы на основе HD-SDI (последовательного цифрового интерфейса высокой четкости).

При производстве и передаче музыки, видео и другого мультимедийного контента, воспроизведение контента может улучшаться либо становиться более полезным или ценным посредством включения метаданных, описывающих характеристики контента. Например, музыка, кодированная в MP3-формате, становится более полезной посредством включения ID3-тегов в MP3-файл, чтобы предоставлять информацию относительно заголовка или исполнителя контента.

В видеоконтенте, обычная практика заключается в том, чтобы включать не только описательные метаданные, но и данные для управления воспроизведением контента в зависимости от потребительского оборудования и окружения. Например, телевизионные широковещательные передачи и видеодиски, такие как DVD и Blu-Ray, включают в себя управляющие данные динамического диапазона, которые используются для того, чтобы модифицировать диапазон громкости контента и усиления при низведении, которые используются для того, чтобы управлять преобразованием многоканального аудиосигнала с объемным звуком для воспроизведения на стереоустройстве. В случае управляющих данных динамического диапазона, усиления отправляются для каждых нескольких миллисекунд контента, чтобы сжимать динамический диапазон контента для воспроизведения в зашумленном окружении, либо если меньший диапазон громкости в программе является предпочтительным, посредством необязательного умножения конечного аудиосигнала на усиления.

Средство включения таких метаданных или управляющих данных в цифровой поток битов или файл для доставки в потребителей является общепринятым и указывается в стандартах кодирования аудио, таких как ATSC A/52 (стандартизирован в стандарте сжатия аудио A/52 Комитета по перспективным телевизионным системам) или MPEG HE-AAC (стандартизирован в ISO/IEC 14496-3 и ETSI TS 101 154).

Тем не менее, передача метаданных или управляющих данных в профессиональном или творческом окружении до того, как контент кодируется в конечный поток битов, стандартизирована в гораздо меньшей степени. К настоящему моменту, эта информация является главным образом статической по своему характеру, оставаясь постоянной в течение длительности контента. Хотя, усиления управления громкостью являются динамическими, при производстве контента могут устанавливаться стандартные "профили кодирования" чтобы управлять формированием усилений в ходе конечного процесса кодирования аудио. Таким образом, динамические метаданные не должны обязательно записываться или передаваться в окружении создания контента.

Разработка объектно-ориентированных аудиосистем, в которых звуки в двух или трех измерениях описываются не посредством уровней в традиционных каналах динамиков или амбиофонических компонентах, а посредством пространственных координат или других данных, описывающих их позицию и размер, теперь требует передачи динамических метаданных, которые изменяются непрерывно, если такие звуки перемещаются во времени. Кроме того, статические объекты используются для того, чтобы обеспечивать возможность создания контента с различными дополнительными аудиоэлементами, такими как альтернативные языки, аудиоописание для слабовидящего либо комментарий от лица команды хозяев поля или гостей для спортивных соревнований. Контент с такими статическими объектами более не вписывается в единообразную модель каналов, такую как стерео или стандарт объемного 5.1-звучания, которую профессиональные объекты в настоящее время спроектированы с возможностью приспосабливать. Таким образом, описательные метаданные могут прилагаться к каждому элементу контента в ходе производства или распространения, так что метаданные могут кодироваться в потоки аудиобитов для выдачи или доставки потребителю.

В идеале, профессиональные форматы контента должны включать в себя просто условия для таких позиционных или описательных метаданных в структуре или схеме. Фактически, новые форматы или расширения в существующие форматы, такие как MDA или BWF-ADM, разработаны с этой целью. Тем не менее, такие форматы не понимаются в большинстве случаев посредством унаследованного оборудования, в частности, для распространения в системах, спроектированных для использования вживую или в реальном времени.

В таких системах, распространенными являются унаследованные стандарты, такие как AES3, MADI или встроенное аудио по SDI. Использование этих стандартов постепенно расширяется или заменяется посредством стандартов на основе IP, таких как Ravenna, Dante или AES67. Все эти стандарты или технологии спроектированы с возможностью передавать каналы PCM-аудио и не содержат условия для отправки динамических или описательных метаданных.

Одна технология, рассматриваемая для решения этой проблемы, заключается в том, чтобы кодировать аудио в "мезонинном" формате с использованием кодирования аудио на прозрачной скорости передачи битов, так что надлежащим образом отформатированный может быть включен цифровой поток битов, также содержащий статические метаданные. Этот поток битов затем отформатирован таким образом, что он может отправляться в качестве PCM-кодированных аудиоданных по традиционному телевизионному центру или профессиональной инфраструктуре. Общая реализация этой технологии в телеиндустрии представляет собой Dolby E-систему, переносимую в PCM AES3-аудиоканале согласно SMPTE-стандарту ST 337.

Dolby E обеспечивает возможность использования унаследованного оборудования, спроектированного с четырьмя PCM-аудиоканалами, для 5.1-каналов, необходимых для объемного звука, и также включает в себя условия для передачи "диалнормы" или интегрированного значения громкости программы.

Использование Dolby E-системы раскрывает несколько функциональных недостатков. Одна проблема заключается во включении преобразования частоты дискретизации во многие устройства, используемые для того, чтобы встраивать PCM-аудиосигналы в SDI-инфраструктуру объектов производства или распространения. Преобразование частоты дискретизации или повторная дискретизация аудиосигнала обычно выполняется для того, чтобы обеспечивать корректную фазовую и частотную синхронизацию дискретизированного тактового сигнала аудиоданных с дискретизированным тактовым видеосигналом и сигналами видеосинхронизации, используемыми в объекте. Такая повторная дискретизация нормально имеет неслышимый эффект на PCM-аудиосигнал, но изменяет выборочные PCM-значения. Таким образом, аудиоканал, используемый для передачи Dolby E-потока битов, имеет поток битов, поврежденный посредством повторной дискретизации. В таких случаях, повторная дискретизация может деактивироваться, и другое средство может использоваться для того, чтобы обеспечивать синхронизм дискретизированных тактовых сигналов в объекте.

Другая проблема заключается в задержке, введенной посредством характера на основе блочного преобразования используемого аудиокодека. Dolby E-кодек требует одного видеокадра (приблизительно 1/30 секунды для чересстрочного ATSC-видео) для кодирования и одного видеокадра для декодирования сигнала, приводя к двухкадровой задержке аудио относительно видео. Это требует задержки видеосигнала, чтобы поддерживать синхронизацию артикуляции, вводя дополнительную задержку в инфраструктуре распространения.

Третья проблема заключается в необходимости программировать маршрутизирующие SDI-переключатели с возможностью трактовать вводы, переносящие Dolby E-потоки битов, в качестве каналов передачи данных вместо аудиосигналов. Хотя Dolby E содержит "защитную полосу частот" вокруг вертикального интервала видеосигнала, чтобы обеспечивать возможность маршрутизирующим переключателям переключаться на другой ввод без потерь Dolby E-данных, множество маршрутизирующих переключателей выполняют плавный переход аудиосигналов в ходе такого переключения, чтобы предотвращать слышимые потрескивания или переходные части в нормальных PCM-аудиосигналах. Эти плавные переходы имеют длительность в 5-20 мс и повреждают Dolby E-поток битов вокруг точки переключения.

Эти функциональные ограничения приводят к тому, что большинство телевизионных объектов отказываются от использования Dolby E в пользу стратегии нормализации уровня диалнормы всего контента при поглощении в сети, так что фиксированные значения диалнормы и профили динамического диапазона могут программироваться в выдающих аудиокодерах.

Альтернативная технология, иногда используемая в телевизионных объектах, заключается в том, чтобы вставлять информацию метаданных в сам SDI-видеосигнал в VANC-данных, как стандартизировано в SMPTE-стандарте ST 2020. Зачастую это комбинируется с переносом метаданных с использованием пользовательских битов AES3. Тем не менее, обычное встраиваемое SDI-оборудование не поддерживает извлечение этих метаданных из AES-потока для вставки в VANC-биты.

Дополнительная технология, иногда используемая, заключается в том, чтобы кодировать динамические управляющие данные в PCM-аудиосигнале их посредством вставки в LSB аудиосигнала. Эта технология описывается в статье "A Variable-Bit-Rate Buried-Data Channel for Compact Disc" автора Oomen и используется в реализациях стандарта кодирования аудио по принципу объемного звучания MPEG. Тем не менее, такие скрытые данные не остаются в силе после преобразования частоты дискретизации или усечения LSB.

Связанная технология заключается в том, чтобы использовать дополнительные биты, к примеру, пользовательские биты или вспомогательные выборочные биты, указываемые в AES3-стандарте, в качестве бокового канала передачи данных, подходящего для динамических управляющих данных. К сожалению, многие реализации AES3-стандарта отбрасывают эту информацию.

Дополнительное ограничение вышеуказанных технологий заключается в том, что они предназначены для использования только в техническом окружении передачи. Если они маршрутизируются через творческое оборудование, такое как аудиоконсоль или цифровая звуковая рабочая станция, даже если операции не выполнены для содержащего PCM-канала, нельзя гарантировать, что тракт передачи данных через консоль является точным по битам, поскольку такое оборудование не спроектировано для таких целей. Даже если такая точность по битам может гарантироваться, простое случайное касание управляющего регулятора громкости и в силу этого вызывание небольшого изменения усиления PCM-канала повреждает сигнал.

Для всех этих технологий предусмотрены общие ограничения, налагаемые посредством творческого и транспортного оборудования, которое спроектировано только для целей переноса PCM-аудиосигналов, без учета встраивания цифровых управляющих данных.

Следовательно, существует потребность в усовершенствованном подходе.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для обработки мультимедийного сигнала, содержащего метаданные или управляющие данные. Эта цель разрешается посредством предмета независимых пунктов формулы изобретения.

Настоящее изобретение основано на таких выявленных сведениях, что вторичные мультимедийные данные, например, метаданные, переносящие дополнительную информацию контента первого мультимедийного сигнала (например, рабочие данные), или управляющие данные, содержащие данные для того, чтобы управлять воспроизведением контента первых мультимедийных данных, могут размещаться в потоке цифровых слов, который является устойчивым ко множеству манипулирований сигналами. Варианты осуществления показывают поток цифровых слов в качестве способности аудиоподобного цифрового сигнала противостоять или быть устойчивым к манипулированию сигналами, которое является типичным для аудиосигналов. Обработка сигналов может представлять собой преобразование частоты дискретизации, усиление или ослабление сигнала либо смещение DC (постоянного тока). Преобразование частоты дискретизации может выполняться, например, если поток цифровых слов размещается в потоке высшего порядка, таком как, например, цифровой AES3 PCM-аудиоканал, в котором частота дискретизации кодера, создающего поток цифровых слов, отличается от частоты дискретизации процессора сигналов, такого как, цифровой AES3-аудиоинтерфейс, создающего поток высшего порядка. Следовательно, вторичные мультимедийные данные могут трактоваться в качестве типичного аудиосигнала и в силу этого могут быть реализованы в одном из нескольких аудиоканалов в настоящих системах, например, в специальном оборудовании в телевизионных (ТВ-) студиях. Специальный вариант осуществления может представлять собой SDI-видеосигнал, содержащий 16 аудиоканалов, причем один аудиоканал используется для метаданных или управляющих данных. SDI-видеосигнал также может содержать один или более видеоканалов. Аудиоканалы могут представлять собой цифровые PCM-аудиоканалы. Следовательно, метаданные или управляющие данные могут быть кодированы как устойчивый аналоговый цифровой сигнал вместо стандартного цифрового потока битов, так что он является устойчивым к манипулированию сигналами, типичному для цифровых PCM-аудиоканалов. Настоящие системы могут расширяться, чтобы содержать управляющие данные или метаданные, посредством замены текущих кодеров и декодеров кодерами и декодерами, описанными ниже. Эта замена может достигаться посредством сравнительно недорогого обновления программного обеспечения. Даже если кодер и декодер реализован в аппаратных средствах, дополнительные (дорогие) аппаратные средства, такие как широковещательное оборудование, могут оставаться неизменными.

Варианты осуществления показывают кодер для кодирования вторичных мультимедийных данных, содержащих метаданные или управляющие данные для первичных мультимедийных данных. Кодер сконфигурирован с возможностью кодировать вторичные мультимедийные данные для того, чтобы получать поток цифровых слов, причем кодирование содержит преобразование вторичных мультимедийных данных посредством цифровой модуляции или содержит ограничение полосы частот. Кроме того, кодер сконфигурирован с возможностью выводить кодированные вторичные мультимедийные данные в качестве потока цифровых слов. Следовательно, поток цифровых слов может формироваться таким образом, что он может противодействовать типичной обработке цифрового аудиопотока. Кроме того, средство для обработки цифрового аудиопотока имеет возможность обрабатывать поток цифровых слов, поскольку поток цифровых слов может быть спроектирован в качестве аудиоподобного или аналогового цифрового потока.

Варианты осуществления относятся к кодированию. Кодирование может содержать добавление избыточности посредством цифровой модуляции. Цифровая модуляция, например, импульсно-амплитудная модуляция, может заключаться в том, что два или более битов вторичных мультимедийных данных передаются в каждом цифровом слове потока цифровых слов. Кроме того, кодер может выводить поток цифровых слов таким образом, что поток цифровых слов допускает передачу по PCM-аудиоканалу. Кроме того, кодер может выводить дополнительный поток цифровых слов. Дополнительный поток цифровых слов представляет первичные мультимедийные данные, и дополнительный поток отделяется от потока цифровых слов. Первичные мультимедийные данные могут представлять собой аудиоданные, а вторичные мультимедийные данные могут представлять собой метаданные для аудиоданных или управляющие данные для аудиоданных. Следовательно, кодер может быть сконфигурирован с возможностью выводить поток цифровых слов и дополнительный поток цифровых слов таким образом, что дополнительный поток цифровых слов допускает передачу по первому PCM-аудиоканалу, и таким образом, что поток цифровых слов допускает передачу по второму PCM-аудиоканалу, отличающемуся от первого PCM-аудиоканала. Каждое из цифровых слов дополнительного потока, представляющего первичные мультимедийные данные, может иметь предварительно заданное число битов, большее 8 битов и меньшее 32 битов, при этом каждое из цифровых слов потока цифровых слов также может иметь предварительно определенное число битов. Кодер дополнительно может формировать поток цифровых слов таким образом, что поток цифровых слов содержит опорный шаблон временного распределения или опорный шаблон амплитуды.

Дополнительные варианты осуществления показывают совмещение вторичных мультимедийных данных. Следовательно, кодер выводит видеопоток, представляющий последовательность видеоизображений, таким образом, что управляющие данные или метаданные вторичных мультимедийных данных, связанных с определенным видеоизображением, связаны с определенным видеоизображением. Это является преимущественным, поскольку последовательность видеоизображений может отсекаться в любом видеоизображении или между любым из последовательных видеоизображений, и следующее видеоизображение по-прежнему содержит управляющие данные или метаданные, связанные с этим видеоизображением. Кроме того, кодер может выводить поток цифровых слов в качестве первого потока цифровых слов, ассоциированных с первым видеоизображением из последовательности видеоизображений, и выводить поток цифровых слов в качестве второго потока цифровых слов, ассоциированных со вторым видеоизображением из последовательности видеоизображений, при этом первое и второе цифровые слова являются идентичными между собой. Это может быть преимущественным, если последовательные видеоизображения содержат идентичные метаданные или управляющие данные, чтобы обеспечивать то, что каждое видеоизображение содержит метаданные или управляющие данные, ссылающиеся на видеоизображение.

Кроме того, варианты осуществления показывают кодер, чтобы выводить кодированные вторичные мультимедийные данные в качестве потока цифровых слов в качестве управляющей дорожки и выводить вплоть до 15 каналов первичных мультимедийных данных в качестве аудиодорожек, при этом управляющая дорожка и аудиодорожки формируются в соответствии с AES3-стандартом.

Дополнительные варианты осуществления показывают кодер, сконфигурированный с возможностью формировать цифровые слова, причем цифровые слова имеют 12-28 битов, либо при этом цифровые слова дискретизированы на частоте дискретизации от 30 кГц до 55 кГц, либо при этом цифровые слова имеют динамический диапазон в 70-160 дБ или имеют номинальный уровень сигнала полного RMS-масштаба в -20 дБ. Кодер может использовать верхнюю частоту для ограничения полосы частот вторичных мультимедийных данных, составляющей от 15 кГц до 27,5 кГц для частоты дискретизации от 30 кГц до 55 кГц.

Варианты осуществления дополнительно показывают кодер, содержащий модуль преобразования и компоновщик потоков. Модуль преобразования сконфигурирован с возможностью преобразования сгруппированных вторичных мультимедийных данных, содержащих первое число битов, в слово данных, содержащее второе число битов, превышающее первое число битов. Кроме того, сгруппированные вторичные мультимедийные данные совмещаются с зазором до старшего бита или младшего бита слова данных. Компоновщик потоков сконфигурирован с возможностью компоновки потока, представляющего кодированные вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных. Это является преимущественным, поскольку зазор обеспечивает усиление сгруппированных вторичных мультимедийных данных приблизительно на 6 дБ (или с коэффициентом 2) для каждого бита, который зазор содержит до старшего бита, и ослабление приблизительно на 6 дБ (или с коэффициентом 0,5) для каждого бита, который зазор содержит до младшего бита слова данных. Следовательно, не важно то, применяется усиление или ослабление специально или случайно, поскольку структура слова данных, с преобразованием сгруппированных вторичных мультимедийных данных (информации) в слово данных, причем на обоих концах сгруппированных вторичных мультимедийных данных дополнение применяется для того, чтобы получать слово данных, обеспечивает побитовый сдвиг (усиление на коэффициент 2 для каждого бита, сдвинутого к старшему биту, или ослабление на коэффициент 0,5 для каждого бита, сдвинутого к младшему биту). Следовательно, сгруппированные вторичные мультимедийные данные не повреждаются и остаются допустимыми до тех пор, пока усиление или ослабление не превысит дополнение.

Варианты осуществления дополнительно показывают кодер, содержащий модуль группировки для группировки потока битов вторичных мультимедийных данных, чтобы формировать сгруппированные вторичные мультимедийные данные. Кроме того, кодер может содержать формирователь опорных сигналов для формирования опорного шаблона, указывающего опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных. Компоновщик потоков может компоновать поток цифровых слов, представляющих кодированные вторичные мультимедийные данные, с использованием опорного шаблона или слова данных. Опорный шаблон может указывать опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных. Анализ опорного шаблона в декодере обеспечивает возможность декодеру вычислять усиление или ослабление либо смещение постоянного тока, применяемое к потоку цифровых слов после того, как поток кодирован в кодере. Кроме того, частота дискретизации потока цифровых слов может определяться из предварительно определенного момента времени в первичных мультимедийных данных.

Компоновщик потоков дополнительно может содержать фильтр, чтобы подвергать фильтрации нижних частот слова данных или опорный шаблон, чтобы получать цифровые слова, содержащие длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом амплитуда цифрового слова взвешивается согласно слову данных или опорному шаблону, при этом фильтр сконфигурирован с возможностью суммировать последовательные цифровые слова в моменты предварительно определенной частоты дискретизации, с тем чтобы получать поток цифровых слов. Применение фильтра является преимущественным, поскольку вторичные мультимедийные данные являются более уязвимыми для повторной дискретизации, чем нормальные аудиоданные. Следовательно, фильтр обеспечивает возможность вторичным мультимедийным данным противостоять применяемым этапам повторной дискретизации между кодером и декодером либо в декодере относительно кодера и противостоять требуемому этапу повторной дискретизации в период декодера. Кроме того, поток цифровых слов может подвергаться аналоговому, а затем цифровому преобразованию в ходе повторной дискретизации без значительных потерь. Тем не менее, повторная дискретизация может не быть идентичной преобразованию цифрового сигнала в аналоговый сигнал. Аналоговое преобразование может заключать в себе фильтры с импульсными характеристиками, которые должны размывать данные, и аналого-цифровое преобразование может добавлять в сигнал шум квантования, а также любой аналоговый шум (тепловой или сформированный полупроводником шум, гул или помехи и т.д.). Сигнал, который формируется с использованием идеи изобретения, имеет возможность противостоять повторной дискретизации и цифро-аналоговому преобразованию.

Согласно дополнительным вариантам осуществления, фильтр сконфигурирован с возможностью получать нулевые точки в моменты предварительно определенной частоты дискретизации импульса данных, при этом импульс данных содержит слово данных, содержащее сгруппированные вторичные мультимедийные данные или опорный шаблон. Кроме того, компоновщик потоков сконфигурирован с возможностью компоновать поток, представляющий кодированные вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных таким образом, что нулевые точки импульса данных совмещаются с максимумом дополнительного импульса данных, чтобы получать устойчивый к межсимвольным помехам поток, представляющий кодированные вторичные мультимедийные данные. Другими словами, преимущественно использовать фильтр Найквиста, поскольку сигнал после фильтрации Найквиста может декодироваться в декодере без межсимвольных помех. Другими словами, преимущественно использовать фильтр, удовлетворяющий критерию Найквиста для нулевых межсимвольных помех. Согласно вариантам осуществления, частота отсечки фильтра может составлять менее 1,5 раз от частоты дискретизации первичных мультимедийных данных.

Согласно варианту осуществления, формирователь опорных сигналов формирует сгруппированный опорный шаблон, содержащий первое число битов. Формирователь опорных сигналов дополнительно сконфигурирован с возможностью преобразовывать сгруппированный опорный шаблон в слово данных, содержащее второе число битов, превышающее первое число битов. Альтернативно, модуль преобразования преобразует сгруппированный опорный шаблон, содержащий первое число битов, в слово данных, содержащее второе число битов, превышающее первое число битов. Варианты осуществления описывают варианты, чтобы применять формат слов данных, содержащих метаданные или управляющие данные, к опорному шаблону. Преимущественно, опорный шаблон получает идентичные меры предосторожности против усиления или ослабления мультимедийного сигнала относительно вторичных мультимедийных данных. Следовательно, формирователь опорных сигналов может предоставлять опорный шаблон в форме преобразованных вторичных мультимедийных данных, что означает то, что опорный шаблон содержит первое число битов и преобразуется в опорный шаблон, содержащий второе число битов, превышающее первое число битов, и содержащий идентичный зазор до старшего бита и младшего бита, как уже описано в декодере и кодере. Альтернативно, формирователь опорных сигналов выводит опорный шаблон, содержащий первое число битов. В соответствии со вторичными мультимедийными данными, модуль преобразования преобразует опорный шаблон с первым числом битов в слово данных со вторым числом битов.

Варианты осуществления дополнительно показывают декодер для декодирования мультимедийного сигнала, содержащего принимаемый поток цифровых слов, представляющих кодированные вторичные мультимедийные данные, содержащие метаданные или управляющие данные для первичных мультимедийных данных. Декодер сконфигурирован с возможностью восстанавливать вторичные мультимедийные данные с использованием манипулирования принимаемым потоком цифровых слов относительно амплитуд, представленных посредством принимаемых цифровых слов, либо с использованием повторной дискретизации. Декодер сконфигурирован с возможностью извлекать поток битов из восстановленных вторичных мультимедийных данных.

Варианты осуществления дополнительно показывают декодер, содержащий формирователь опорных сигналов, манипулятор сигналов и процессор сигналов. Анализатор опорных шаблонов анализирует опорный шаблон кодированных вторичных мультимедийных данных, при этом анализатор опорных шаблонов сконфигурирован с возможностью определять амплитуду опорного шаблона или определять предварительно определенный момент времени в первичных мультимедийных данных. Манипулятор сигналов манипулирует кодированными вторичными мультимедийными данными в соответствии с проанализированным опорным шаблоном и вычисленным опорным шаблоном, чтобы получать вторичные мультимедийные данные. Процессор сигналов обрабатывает первичные мультимедийные данные согласно кодированным вторичным мультимедийным данным, чтобы получать декодированный мультимедийный сигнал. Это является преимущественным, поскольку обработка сигналов, применяемая к мультимедийному сигналу в ходе кодирования, обеспечивает возможность манипулятору сигналов точно восстанавливать мультимедийный сигнал из кодированного мультимедийного сигнала, независимо от типичных манипулирований сигналами, таких как усиление и т.д.

Согласно вариантам осуществления, манипулятор сигналов содержит преобразователь частоты дискретизации, сконфигурированный с возможностью преобразовывать частоту дискретизации, ассоциированную с цифровыми словами, согласно предварительно определенному моменту времени первичных мультимедийных данных, указываемых в опорном шаблоне, в предварительно определенную частоту дискретизации, с тем чтобы получать повторно дискретизированные цифровые слова. Это является преимущественным, поскольку стандарты для частот аудиодискретизации могут сочетаться в ходе обработки мультимедийных данных. Даже небольшое преобразование частоты дискретизации, например, от 48 кГц до 48,1 кГц, повреждает вторичные мультимедийные данные, поскольку, в отличие от аудиоданных, отсутствует избыточность или зависимость во вторичных мультимедийных данных, которые содержат метаданные или управляющие данные. Другими словами, последовательные символы вторичных мультимедийных данных могут варьироваться от наибольшего возможного значения до наименьшего возможного значения в одной выборке. Это приводит к сверхвысоким частотам вследствие сильных изменений во вторичных мультимедийных данных.

Тем не менее, в отличие от вторичных мультимедийных данных, аудиовыборки типично имеют ограниченную полосу частот, что означает то, что изменения аудиоданных ограничены максимальной частотой, определенной посредством частоты дискретизации.

Дополнительные варианты осуществления описывают анализатор опорных шаблонов, содержащий модуль определения моментов времени, сконфигурированный с возможностью определять предварительно заданный момент времени первичных мультимедийных данных в опорном шаблоне с точки зрения выборок частоты дискретизации, модуль повышающей дискретизации, сконфигурированный с возможностью повышающе дискретизировать диапазон вокруг определенного момента времени, чтобы определять точную позицию предварительно определенного момента времени, и дискретизирующий модуль накопления, сконфигурированный с возможностью определять точную позицию цифровых слов в потоке цифровых слов, чтобы получать фактическую частоту дискретизации, ассоциированную с цифровыми словами, отличающуюся от предварительно определенной частоты дискретизации.

Варианты осуществления дополнительно показывают анализатор опорных шаблонов, содержащий модуль вычисления коэффициентов усиления, сконфигурированный с возможностью вычислять коэффициент усиления или ослабления согласно амплитуде или опорному шаблону и амплитуде вычисленного опорного шаблона, при этом манипулятор сигналов содержит умножитель, сконфигурированный с возможностью усиливать или ослаблять слова данных согласно коэффициенту усиления или ослабления, чтобы получать слова данных с компенсацией усиления. Это является преимущественным, поскольку усиление или ослабление кодированного мультимедийного сигнала является одной из главных проблем, которая может вызываться в ходе передачи кодера в декодер. Оно может применяться специально, например, в частотном корректоре, если другие аудиоканалы должны усиливаться или ослабляться специально или случайно вследствие канала с вышеуказанными характеристиками.

Согласно дополнительному варианту осуществления, показан мультимедийный сигнал, содержащий поток цифровых слов. Поток цифровых слов представляет вторичные мультимедийные данные, содержащие метаданные и управляющие данные для первичных мультимедийных данных.

Дополнительные варианты осуществления показывают анализатор опорных шаблонов, содержащий амплитудный детектор, сконфигурированный с возможностью определять амплитуду опорного шаблона и дополнительную амплитуду опорного шаблона. Анализатор опорных шаблонов дополнительно может содержать модуль компенсации смещения, сконфигурированный с возможностью вычислять смещение кодированных вторичных мультимедийных данных согласно уходу амплитуды опорного шаблона и дополнительной амплитуды опорного шаблона, при этом второй манипулятор содержит сумматор, сконфигурированный с возможностью суммировать вычисленное смещение кодированных вторичных мультимедийных данных относительно кодированных вторичных мультимедийных данных для того, чтобы получать кодированные вторичные мультимедийные данные с компенсацией смещения. Преимущества варианта осуществления являются аналогичными преимуществам предыдущего варианта осуществления модуля вычисления коэффициентов усиления, в котором смещение может применяться к кодированным вторичным мультимедийным данным вместо усиления, например, в ходе процесса частотной коррекции между кодером и декодером или случайно из ухода, вызываемого посредством канала передачи.

Варианты осуществления дополнительно показывают манипулятор сигналов, содержащий модуль обратного преобразования, сконфигурированный с возможностью обратно преобразовывать сгруппированные вторичные мультимедийные данные, содержащие первое число битов, из слов данных, содержащих второе число битов, превышающее первое число битов. Дополнительно или альтернативно, манипулятор сигналов содержит модуль разгруппировки, сконфигурированный с возможностью разгруппировать сгруппированные вторичные мультимедийные данные, содержащие первое число битов, чтобы получать декодированный поток битов мультимедийных данных. Цифровые слова дополнительно могут содержать цифровые слова, содержащие фильтрованные вторичные мультимедийные данные, содержащие опорный шаблон и множество слов данных, при этом вторичные мультимедийные данные преобразуются в слова данных с зазором до старшего бита слова данных или младшего бита слова данных. Кроме того, опорный шаблон может содержать опорную амплитуду кодированных вторичных мультимедийных данных и предварительно определенный момент времени в первичных мультимедийных данных, при этом множество слов данных содержат вторичные мультимедийные данные.

Варианты осуществления показывают мультимедийный сигнал, содержащий дополнительный поток первичных мультимедийных данных, при этом первичные мультимедийные данные содержат аудиоданные или видеоданные, при этом дополнительный поток, содержащий первичные мультимедийные данные, совмещается с потоком кодированных вторичных мультимедийных данных и предварительно определенным моментом времени в первичных мультимедийных данных. Это является преимущественным, поскольку момент времени в первичных мультимедийных данных обеспечивает возможность точного совмещения вторичных мультимедийных данных с первичными мультимедийными данными. Другими словами, аудиосигнал и метаданные или управляющие данные могут совмещаться с кадрами видеосигнала в сигнале гашения вертикальной развертки или в дополнительном сигнале синхронизации видеосигнала. Кроме того, момент времени может представлять собой сигнал синхронизации в аудиосигнале, в котором вторичные мультимедийные данные совмещаются. Следовательно, вторичные мультимедийные данные также могут применяться только к аудиопотокам. Идея состоит в том, чтобы предоставлять любую информацию вторичных мультимедийных данных в каждом кадре видеосигнала. Поскольку вторичные мультимедийные данные совмещаются с моментом времени в первичных мультимедийных данных, в который видеопоток отсекается, вторичные мультимедийные данные остаются неизменными и нетронутыми. Следовательно, каждый видеокадр может содержать любую информацию из вторичных мультимедийных данных, даже если видеосигнал, содержащий видеокадр, отсекается.

Варианты осуществления могут быть разработаны согласно следующим соображениям. Следовательно, преимущество вариантов осуществления изобретения заключается в том, чтобы предоставлять средство для переноса статических и динамических управляющих данных или метаданных, прилагаемых к цифровым аудиосигналам с PCM (импульсно-кодовой модуляцией), через традиционное творческое и распространяющее оборудование, которое предоставляет только PCM-аудиоканалы.

Это может осуществляться посредством рассмотрения фундаментального характера цифрового PCM-аудиоканала в качестве средства передачи для аудиосигнала. Такие аудиосигналы нормально оцифруются для телевизионного использования при битовой глубине в 16-24 битов и на частоте дискретизации в 48 кГц и имеют результирующий динамический диапазон в 90-140 дБ, с номинальным уровнем сигнала полного масштаба на основе RMS (среднеквадратического значения) в -20 дБ.

Таким образом, если рассматривать типичный AES3-канал передачи в качестве оцифрованного канала связи, имеющего эти характеристики, технологии модуляции, обычно используемые в цифровой связи, могут использоваться для того, чтобы отправлять модулированные данные по каналу. Такие технологии, естественно, являются невосприимчивыми к изменениям усиления, небольшим искажениям временной базы и, во многих случаях, искажениям частотной характеристики канала.

Цифровой AES3 PCM-аудиоканал отличается от каналов, используемых для цифровой связи. Он представляет собой строго цифровой канал и не страдает от многолучевого распространения и быстрого замирания канала, типичного для каналов радиосвязи. С учетом динамического диапазона в 90-140 дБ, он практически не ограничен по потенциальной мощности передачи, чтобы предоставлять достаточное отношение "мощность-несущей-к-шуму". При использовании в видеосистемах, к примеру, встраивании в видеосигнал SDI (последовательного цифрового интерфейса), он имеет внутренне присущий блочный характер вследствие необходимости не допускать интервала вертикальной синхронизации видео, в котором может возникать переключение. Кроме того, в отличие от многих систем связи, существует потребность в низкой задержке, чтобы не допускать проблем синхронизации артикуляции или не допускать трудностей при мониторинге аудио при производстве широковещательных передач вживую.

Требования по пропускной способности управляющих данных или метаданных, необходимых для объектного аудио, варьируются в силу числа объектов независимо от того, являются они статическими или динамическими, и конкретного используемого стандарта объектного аудио. Один такой стандарт представляет собой спецификацию MPEG-H-аудио, ISO/IEC 23008-3. В этом стандарте, типичные варианты использования заключают в себе метаданные или управляющие данные, кодированные при потоковой передаче пакетов с использованием спецификации MHAS (MPEG-H-аудиопоток (задан в ISO/IEC 23008-3 в главе 14 "MPEG-H 3D audio stream")) на скоростях передачи битов в 10-30 Кбит/с.

Например, каждый динамический объект в MPEG-H-аудиосцене требует 1,5 Кбит/с для передачи. Таким образом, программа с 16 динамическими объектами (практический максимум с учетом того, что SDI-интерфейс поддерживает только 16 каналов встроенного аудио) требует приблизительно 25 Кбит/с данных. Статические метаданные относительно аудиосцены могут отнимать еще 40-50 Кбит/с, если они отправляются каждый аудиокадр.

Потенциальная требуемая частота ошибок по битам (BER) может оцениваться посредством рассмотрения следующих факторов. Если одна битовая ошибка разрешена при работе один раз в год, с учетом скорости передачи битов в 75 Кбит/с, то 2,36E12 битов должны отправляться за год, что требует частоты ошибок по битам в 4,2E-13. Тем не менее, информация в управляющих данных является очень избыточной. В большинстве случаев, битовые ошибки должны обнаруживаться посредством базового MHAS-протокола, и управляющие данные должны интерполироваться из окружающих пакетов. Дополнительно или альтернативно, могут использоваться значения CRC (контроля циклическим избыточным кодом), например, с использованием 16-битовх или других подходящих кодов либо механизмов для того, чтобы проверять битовые ошибки. В этом случае, битовая ошибка один раз в час может быть обоснованным верхним пределом. Этот второй случай требует BER в 3,7E-9. Таким образом, обоснованная BER для этой схемы передачи, вероятно, должна составлять BER между 1E-9 и 1E-12, что является легко возможным при высоких отношениях "сигнал-шум", доступных в цифровом AES3-аудиоканале.

Следует отметить, что типичные выражения для BER для каналов связи не применяются здесь, поскольку шум в этом канале представляет собой строго шум квантования и повторной дискретизации, с прямоугольной или, возможно (в случае, если применяется размытие), треугольной функцией плотности распространения вероятностей.

Временная базовая ошибка, введенная посредством преобразования частоты дискретизации (или более точно, посредством источников, работающих асинхронно), ограничена посредством точности источников тактовых сигналов, используемых в каждом элементе оборудования, выступающем в качестве асинхронного источника. Наиболее профессиональные телевизионные объекты работают с источниками тактовых сигналов или сигналов синхронизации, сформированными из точных стандартов на основе кристалла, GPS или рубидия, типично с максимальным допуском по частоте в 0,1-1,0 миллионных долей. Типичное потребительское оборудование может иметь допуски по частоте в 30 миллионных долей. При обеспечении некоторого допустимого запаса для случая потребительского оборудования, работающего при экстремальных значениях температуры, допуск в 100 миллионных долей может безопасно предполагаться для случая соединения потребительского оборудования, работающего на месте, с профессиональным телецентром.

Таким образом, возможный набор проектных допущений и целей для применения этого изобретения для целей передачи управляющих данных или метаданных, необходимых для общего использования стандарта MPEG-H-аудио, следующий:

Частота дискретизации 48 кГц
Частота передачи символов 16 Кбод (1/3 частоты дискретизации для удобства)
Требуемая скорость передачи битов 75 Кбит/с
Максимальное время задержки, сквозное 240 выборок или 5 мс
Максимальная временная базовая ошибка 100 миллионных долей
Канальная битовая глубина 14 битов (чтобы разрешать неточное округление, дополнительный шум квантования в плохой конструкции цифрового аудиооборудования и т.д.)
Канальное усиление От +15 до -20 дБ (чтобы разрешать ошибки усиления в оборудовании или непреднамеренное регулирование канального усиления в оборудовании для обработки либо в аудиоконсоли или рабочей станции)
Номинальное значение RMS или громкости сигнала От -30 до -15 дБ FS (чтобы разрешать рабочему персоналу отслеживать уровень сигнала аудиоканала, что они проводят для нормальных аудиосигналов)

Дополнительная цель предпочтительного варианта осуществления этого изобретения состоит в том, чтобы обеспечивать простоту реализации и отладки специалистами по кодированию аудио, которые хорошо знакомы с компоновочными блоками, используемыми в перцепционном кодировании аудио, но которые могут не иметь опыта по технологиям реализации, стандартным для передачи данных.

С учетом полосы пропускания канала в 24 кГц и проектной скорости передачи символов в 16 Кбод, простые классические технологии модуляции, такие как ASK или PSK, не являются подходящими. Используется модуляция, которая предоставляет эффективность кодирования, по меньшей мере, в 5 бит/с/Гц.

Специалисты в данной области техники должны признавать, что ряд обычно используемых технологий модуляции для цифровой связи должны удовлетворять этим проектным допущениям и целям. Например, может использоваться 64QAM (квадратурная амплитудная модуляция с алфавитом в 64 символа), поскольку она предоставляет эффективность кодирования в 6 бит/с/Гц. Тем не менее, реализация QAM-демодулятора, в общем, использует умеренно комплексную обработку сигналов, чтобы восстанавливать несущую частоту и тактовый сигнал символов, включающую в себя использование контуров цифровой фазовой синхронизации (PLL), которые являются незнакомыми для специалистов по кодированию аудио. Такие PLL требуют настройки контурных фильтров или модулей накопления, чтобы не допускать нестабильности контура, и требуют некоторого времени, чтобы устойчиво получать сигнал после переходной части или переключения.

Предпочтительный вариант осуществления, представленный здесь, использует 32PAM (импульсно-амплитудную модуляцию с 32 уровнями) в качестве альтернативы, которая не требует PLL и формирует проектное решение, которое использует функции обработки сигналов, обычно используемые в кодировании аудио. PAM требует увеличения в 6 дБ отношения "сигнал-шум" для каждого приращения эффективности кодирования, по сравнению с 3 дБ, необходимыми при QAM, но в этой системе отношение "сигнал-шум" является внутренне высоким, тогда как затраты на проектирование и отладку приемного PAM-устройства являются более низкими.

Все вышеописанные варианты осуществления могут рассматриваться в совокупности или в комбинации, например, в телевизионном центре, в котором кодер кодирует видеосигнал с помощью соответствующего аудиосигнала и метаданных или управляющих данных (вторичных мультимедийных данных), например, на первой частоте дискретизации, при этом декодер может применяться к управляющему экземпляру (например, модулю мониторинга) или выдающему экземпляру перед передачей мультимедийного сигнала потребителю.

Ниже поясняются варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 показывает принципиальную блок-схему системы кодера и декодера в телевизионном центре или сети согласно вариантам осуществления;

Фиг. 2 показывает принципиальную блок-схему кодера для кодирования вторичных мультимедийных данных согласно варианту осуществления;

Фиг. 3 показывает принципиальную блок-схему кодера для кодирования вторичных мультимедийных данных согласно дополнительному варианту осуществления;

Фиг. 4 показывает концептуальную принципиальную блок-схему секции передающего устройства изобретения, которая разрешает поток битов метаданных или управляющих данных и кодирует его в качестве 32PAM-сигнала, отформатированного для передачи в 16-битовом PCM-аудиоканале на 48 кГц согласно варианту осуществления;

Фиг. 6 показывает принципиальную блок-схему декодера согласно варианту осуществления;

Фиг. 7 показывает концептуальную принципиальную блок-схему секции приемного устройства согласно вариантам осуществления, которая разрешает PCM-данные из 16-битового PCM-аудиоканала на 48 кГц и декодирует встроенный 32PAM-сигнал в поток битов метаданных или управляющих данных согласно варианту осуществления;

Фиг. 8a показывает схематичное представление мультимедийного сигнала согласно варианту осуществления;

Фиг. 8b показывает схематичное представление мультимедийного сигнала согласно дополнительному варианту осуществления;

Фиг. 8c показывает принципиальную схему, показывающую преобразование 5-битовых 32PAM-сигнальных символов в 16-битовое дискретизированное слово PCM-аудиоканала согласно варианту осуществления;

Фиг. 9a, b показывают принципиальную временную схему сигналов, показывающую временную взаимосвязь между сигналом вертикальной синхронизации видеообъекта и кодированными метаданными или управляющими данными в PCM-аудиоканале согласно варианту осуществления;

Фиг. 10a показывает формирующий фильтр на основе приподнятого косинуса с крутизной спада в 0,98 в непрерывном во времени представлении;

Фиг. 10b показывает формирующий фильтр на основе приподнятого косинуса с крутизной спада в 0,98 в дискретном во времени представлении;

Фиг. 11a показывает функцию формирующего фильтра на основе приподнятого косинуса с крутизной спада в 0,7 в непрерывном во времени представлении;

Фиг. 11b показывает функцию формирующего фильтра на основе приподнятого косинуса с крутизной спада в 0,7 в дискретном во времени представлении;

Фиг. 11c показывает изображение по фиг. 11b три раза в строке, совмещенной со смещением в две выборки между смежными функциями фильтра;

Фиг. 12a показывает схематичное представление потока согласно варианту осуществления в непрерывном во времени представлении согласно варианту осуществления;

Фиг. 12b показывает часть потока, уже представленного на фиг. 12a, в укрупненной версии;

Фиг. 12c показывает схематичное представление потока согласно варианту осуществления в дискретном во времени представлении согласно варианту осуществления;

Фиг. 12d показывает часть потока, уже представленного на фиг. 12a, в укрупненной версии;

Фиг. 13 показывает блок-схему последовательности операций способа для декодирования мультимедийного сигнала, содержащего поток, представляющий вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных;

Фиг. 14 показывает блок-схему последовательности операций способа для кодирования мультимедийного сигнала с помощью кодера;

Фиг. 15a показывает схематичное представление системы в фиксированном режиме; и

Фиг. 15b показывает схематичное представление системы в режиме управляющей дорожки.

Далее подробнее описываются варианты осуществления изобретения. Элементы, показанные на соответствующих чертежах, имеющие идентичную или аналогичную функциональность, имеют ассоциированные идентичные ссылки с номерами.

Варианты осуществления предоставляют удобную и надежную транспортировку метаданных или управляющих данных аудиосигнала, прилагаемых к цифровому аудиосигналу. Метаданные или управляющие данные подвергаются цифровой модуляции или кодируются в сигнал, допускающий типичные ухудшения передачи для распространения в объектах и сетях производства или распространения профессионального аудио или видео по нормальному цифровому аудиоканалу, или канал встраивается в цифровой видеосигнал. Метаданные могут содержать описание для экранных меню, позиции объектов в видеокадре, информации языка для различных аудиоканалов, такой как, например, немецкий, английский, французский и т.д. язык. Управляющие данные могут содержать информацию относительно кодирования аудиоканалов, чтобы применять корректные параметры декодирования, либо управляющие данные могут содержать параметры, чтобы интерпретировать амбиофонию высшего порядка или любую другую информацию, чтобы декодировать аудиосигнал. Тем не менее, метаданные и управляющие данные могут использоваться для многих других целей. В цифровом мультимедиа, сущность представляет собой базовый контент актива, и метаданные являются описательными данными относительно этого актива. Следовательно, вышеуказанные примеры не ограничивают объем изобретения.

Фиг. 1 показывает принципиальную блок-схему системы 400 обработки данных, содержащей кодер и декодер. В частности, фиг. 1 показывает 32PAM-модулятор 3, содержащий кодер, и 32PAM-демодулятор 9, содержащий декодер. Кроме того, мультимедийный сигнал 155, содержащий поток битов вторичных мультимедийных данных 125 и первичных мультимедийных данных 90a (например, аудиосигналов сущности) и, дополнительно, первичных мультимедийных данных 90b (например, видеосигнала), показан согласно варианту осуществления. Система может быть частью телевизионной студии, в которой вторичные мультимедийные данные, содержащие поток битов управляющих аудиоданных или метаданных, включены в аудиосигналы сущности и в силу этого совмещаются с видеосигналом для каждого видеокадра. Следовательно, в телевизионной студии, кодированный видеосигнал может проверяться с использованием модуля мониторинга и в силу этого с использованием декодера, чтобы декодировать кодированный мультимедийный сигнал. Кроме того, мультимедийный сигнал может декодироваться с использованием вторичных мультимедийных данных до операций канального кодирования и последующей обработки, чтобы подготавливать конечный мультимедийный сигнал, который должен передаваться потребителю. Этот конечный мультимедийный сигнал более не имеет вторичного мультимедийного сигнала.

Если обобщать, согласно варианту осуществления, система обработки данных содержит манипулятор сигналов для манипулирования потоком цифровых слов таким образом, чтобы получать манипулируемый поток цифровых слов, при этом декодер сконфигурирован с возможностью восстанавливать поток цифровых слов из манипулируемого потока цифровых слов. Манипулятор сигналов может манипулировать посредством усиления амплитуды или ослабления амплитуды либо введения смещения или варьирования смещения, либо частотно-избирательного ослабления или усиления, либо повторной дискретизации. Кроме того, декодер может восстанавливать поток цифровых слов, манипулируемых посредством усиления амплитуды или ослабления амплитуды либо введения смещения или варьирования смещения, либо частотно-избирательного ослабления или усиления, либо повторной дискретизации. Кроме того, манипулятор сигналов может принимать PCM-аудиоканал и может выводить PCM-аудиоканал, при этом кодер сконфигурирован с возможностью выводить сигнал, допускающий передачу по PCM-аудиоканалу, при этом декодер сконфигурирован с возможностью принимать передаваемый поток из PCM-аудиоканала.

Другими словами, фиг. 1 показывает работу предпочтительного варианта осуществления изобретения в окружении объекта либо сети производства или распространения профессионального аудио или видео. Периферийное аудиоустройство или рабочая станция 1 представляет собой источник одного или более цифровых аудиосигналов, называемых в качестве сигналов сущности (или первичных мультимедийных данных), чтобы отличать их от связанных сигналов управляющих данных или метаданных (вторичных мультимедийных данных), которые также поставляются посредством периферийного устройства или рабочей станции.

Поток битов управляющих данных или метаданных вводится в передающее устройство 3, которое преобразует его в такую форму, как 32PAM-модулированные PCM-выборки, которые остаются в силе после нормальных ухудшений канала для AES3- или HD-SDI-каналов. Выборки, а также один или более необязательных аудиосигналов сущности затем предоставляются в цифровой AES3-аудиоинтерфейс 4. Вывод этого интерфейса встраивается в HD-SDI-видеосигнал посредством модуля 5 встраивания, который может применять преобразование частоты дискретизации, с тем чтобы совмещать фазу и частоту тактового AES3-сигнала с тактовыми сигналами и сигналами синхронизации HD-SDI-видеосигнала. Этот видеосигнал затем распространяется через телевизионный центр на основе SDI или инфраструктуру 6 для доставки во второе периферийное аудиоустройство или рабочую станцию 2. Цифровые аудиосигналы извлекаются из HD-SDI-сигнала посредством модуля 7 отмены встраивания и отправляются в качестве AES3-потоков битов в цифровой AES3-аудиоинтерфейс 8. PCM-данные, соответствующие AES-каналу, содержащему информацию управляющих данных или метаданных (кодированные вторичные мультимедийные данные), отправляются в приемное устройство 9. Приемное устройство 9 содержит декодер 50, который декодирует 32PAM- или аналогично модулированные сигналы в поток 85' битов управляющих аудиоданных или метаданных, который может быть частью декодированного мультимедийного сигнала 85. Кроме того, процессор 70 сигналов, показанный на фиг. 6, обрабатывает первичные мультимедийные данные (аудиосигнал сущности) согласно кодированным вторичным мультимедийным данным, чтобы получать кодированный мультимедийный сигнал.

Фиг. 2 показывает принципиальную блок-схему кодера 100 для кодирования вторичных мультимедийных данных, содержащих метаданные и управляющие данные для первичных мультимедийных данных. Кодер сконфигурирован с возможностью кодировать вторичные мультимедийные данные 80 с использованием добавления избыточности или ограничения полосы частот. Кодер дополнительно сконфигурирован с возможностью выводить кодированные вторичные мультимедийные данные в качестве потока 145 цифровых слов. В предпочтительном варианте осуществления, избыточность может добавляться во вторичные мультимедийные данные посредством дополнения нулями или расширения знака. Другие варианты осуществления могут использовать контрольные суммы или коды избыточности. Дополнительный вариант осуществления показывает вторичные мультимедийные данные с ограниченной полосой частот или группу с ограниченной полосой частот вторичных мультимедийных данных необязательно с или без добавленной избыточности. Ограничение полосы частот может извлекаться посредством применения фильтра (нижних частот) к сигналу, или более конкретно, к исходящему сигналу кодера, который может представлять собой сгруппированные или преобразованные вторичные мультимедийные данные. Согласно дополнительным вариантам осуществления, кодер сконфигурирован с возможностью формировать цифровые слова, причем цифровые слова имеют 12-28 битов, либо при этом цифровые слова дискретизированы на частоте дискретизации от 30 кГц до 55 кГц, либо при этом цифровые слова имеют динамический диапазон в 70-160 дБ или имеют номинальный уровень сигнала полного масштаба на основе RMS (среднеквадратического значения) в -20 дБ. Кодер также может быть сконфигурирован с возможностью использовать верхнюю частоту для ограничения полосы частот вторичных мультимедийных данных, составляющей от 15 кГц до 27,5 кГц для частоты дискретизации от 30 кГц до 55 кГц.

Фиг. 3 показывает принципиальную блок-схему кодера 100 для кодирования мультимедийного сигнала. Кодер 100 содержит модуль 115 преобразования и компоновщик 120 потоков. Модуль 115 преобразования сконфигурирован с возможностью преобразовывать группу сгруппированных вторичных мультимедийных данных 130, содержащих первое число битов, в слово 140 данных, содержащее второе число битов, превышающее первое число битов. Сгруппированные вторичные мультимедийные данные совмещаются с зазором до старшего бита или младшего бита слова данных. Компоновщик потоков сконфигурирован с возможностью компоновать поток цифровых слов, представляющих кодированные вторичные мультимедийные данные. Согласно дополнительным вариантам осуществления, кодер содержит модуль 105 группировки, сконфигурированный с возможностью группировки вторичных мультимедийных данных 80, которые могут представлять собой поток битов вторичных мультимедийных данных, чтобы формировать сгруппированные вторичные мультимедийные данные 130. Кроме того, кодер может содержать формирователь 17 опорных сигналов, сконфигурированный с возможностью формировать опорный шаблон, указывающий опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных, при этом компоновщик 120 потоков сконфигурирован с возможностью компоновать поток 145 цифровых слов, представляющих кодированные вторичные мультимедийные данные 55, с использованием опорного шаблона 60 или слова 140 данных. Следовательно, оба сигнала, опорный шаблон 135 и слово 140 данных, могут вводиться в компоновщик 120 потоков, сконфигурированный с возможностью компоновать поток 145 цифровых слов, представляющих кодированные вторичные мультимедийные данные.

Фиг. 4 показывает принципиальную блок-схему кодера 100 согласно варианту осуществления. Варианты осуществления показывают кодер 100, содержащий фильтр 15, чтобы подвергать фильтрации нижних частот слово данных или опорный шаблон, чтобы получать импульс данных, содержащий длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом амплитуда импульса данных взвешивается согласно слову данных или опорному шаблону, при этом фильтр сконфигурирован с возможностью суммировать последовательные импульсы данных в моменты частоты дискретизации. Кроме того, фильтр может быть сконфигурирован с возможностью получать нулевые точки в выборках предварительно определенной частоты дискретизации импульса данных. Импульс данных содержит слово данных, содержащее сгруппированные вторичные мультимедийные данные или опорный шаблон. Компоновщик потоков сконфигурирован с возможностью компоновать поток, представляющий кодированные вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных таким образом, что нулевые точки импульса данных совмещаются с максимумом дополнительного импульса данных, чтобы получать устойчивый к межсимвольным помехам (ISI) поток, представляющий кодированные вторичные мультимедийные данные. Другими словами, преимущественно использовать фильтр Найквиста, обеспечивающий возможность декодеру повторно дискретизировать слова данных или поток цифровых слов без проблем межсимвольных помех или наложения спектров. Фиг. 11c показывает вариант осуществления, иллюстрирующий фильтрованное слово данных и компоновку примерного потока из трех из слов данных. Согласно вариантам осуществления, фильтр содержит отсечку частоты, составляющую менее 1,5 раз от частоты дискретизации первичных мультимедийных данных.

Следует отметить, что модуль 115 преобразования не иллюстрирован на фиг. 4. Тем не менее, модуль преобразования может реализовываться между регистром 14 и фильтром 15 или быть частью одного из блоков или функций.

Другими словами, фиг. 4 показывает концептуальную работу секции передающего устройства по предпочтительному варианту осуществления изобретения. Поток битов управляющих аудиоданных или метаданных вводится в буфер 10 для временного хранения, чтобы предоставлять возможность прерываний в передаваемых данных в ходе вертикальной синхронизации 160 или других операций обработки. Поток 125 битов параллелизуется в слова по 5 битов и передается из буфера посредством концептуального регистра 11. Вывод регистра затем кодируется в значение кода Грея посредством кодера 12. Кроме тех случаев, когда сигнал 160 вертикальной синхронизации является активным, вывод кодера 12 вводится в регистр 14. Вывод регистра 14 принимается в качестве двоичного числа на основе двоичного дополнительного кода, которое подвергается расширению знака и преобразуется в 16-битовое слово данных, как показано на фиг. 8c, и подается в фильтр 15 формирования импульсов. Фильтр в идеале представляет собой фильтр Найквиста, который демонстрирует sin(x)/x нулей в импульсной характеристике в периоды символов, чтобы предотвращать межсимвольные помехи. Такие фильтры известны в теории цифровой связи. Например, подходящий фильтр должен представлять собой фильтр формирования импульсов на основе приподнятого косинуса с параметром избыточной полосы частот, заданным равным 0,75. Вывод фильтра 15 затем подается в дополнительное средство передачи для включения в качестве аудиовыборок в PCM-аудиоканал и встраивания в SDI-видеосигнал. Обработка может управляться посредством (PCM)-дискретизированного тактового сигнала 99, например, в 48 кГц.

В течение интервала вертикальной синхронизации видеосигнала, концептуальный переключатель 13 выбирает вывод формирователя 17 опорных сигналов для передачи вместо вывода кодера 12 Грея. Данные не считываются из буфера 10 в течение этого интервала. Формирователь 17 опорных сигналов выводит значение символа в нуль и в силу этого установившееся PCM-значение в нуль в течение интервала гашения вертикальной развертки. В конце интервала гашения вертикальной развертки, формирователь опорных сигналов выводит восемь символов с кодом 0×0F и затем восемь символов с кодом 0×11 до того, как переключатель 13 возвращается в вывод кодера 12 Грея, и данные начинают считываться из буфера 10. Таким образом (например, с использованием масштабирования в фильтре 15), формируется шестнадцатибитовый PCM-сигнал на основе двоичного дополнительного кода со знаком, показанный на фиг. 4, имеющий значение в нуль в ходе гашения вертикальной развертки, затем положительный импульс 41 с шириной в восемь символов со значением в 0×0780, и затем отрицательный импульс 42 с шириной в восемь символов со значением в 0xf880. Импульсы 41 и 42 за счет этого формируют положительную и отрицательную опорную амплитуду и сильный переход на краю символа, который может использоваться в приемном устройстве для того, чтобы восстанавливать исходную амплитуду и фазу передаваемого 32PAM-сигнала.

Фиг. 5 показывает принципиальную блок-схему декодера 50 для декодирования мультимедийного сигнала 155, содержащего принимаемый поток 145 цифровых слов, представляющих кодированные вторичные мультимедийные данные 55, содержащие метаданные и управляющие данные для первичных мультимедийных данных. Декодер 50 сконфигурирован с возможностью восстанавливать вторичные мультимедийные данные с использованием манипулирования принимаемым потоком цифровых слов относительно амплитуд, представленных посредством принимаемых цифровых слов, либо с использованием повторной дискретизации, при этом декодер дополнительно сконфигурирован с возможностью извлекать поток 125' битов из восстановленных вторичных мультимедийных данных. Декодер может знать исходные амплитуды или предварительно определенный момент времени цифровых слов перед передачей для того, чтобы манипулировать принимаемыми цифровыми словами, чтобы восстанавливать вторичные мультимедийные данные.

Фиг. 6 показывает принципиальную блок-схему декодера 50 для декодирования мультимедийного сигнала, содержащего поток, представляющий кодированные вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных. Декодер 50 содержит анализатор 60 опорных шаблонов, манипулятор 65 сигналов и процессор 70 сигналов. Анализатор 60 опорных шаблонов сконфигурирован с возможностью анализировать опорный шаблон кодированных вторичных мультимедийных данных, при этом анализатор 60 опорных шаблонов сконфигурирован с возможностью определять амплитуду опорного шаблона или определять предварительно определенный момент времени в первичных мультимедийных данных. Манипулятор 65 сигналов принимает кодированные вторичные мультимедийные данные 55 и проанализированный опорный шаблон 75 анализатора 60 опорных шаблонов. Манипулятор 65 сигналов сконфигурирован с возможностью манипулировать кодированными вторичными мультимедийными данными 55 в соответствии с проанализированным опорным шаблоном 75 и вычисленным опорным шаблоном, чтобы получать вторичные мультимедийные данные 80. Мультимедийные данные, например, слова данных, могут передаваться отдельно в манипулятор сигналов, или мультимедийные данные могут передаваться непосредственно в манипулятор сигналов через анализатор опорных шаблонов. Процессор 70 сигналов принимает вторичные мультимедийные данные 80 и сконфигурирован с возможностью обрабатывать первичные мультимедийные данные 90 согласно кодированным вторичным мультимедийным данным 55, чтобы получать декодированный мультимедийный сигнал 85.

Мультимедийные сигналы указываются в дополнительном описании, в частности, относительно фиг. 8-12. Согласно вариантам осуществления, кодированные вторичные мультимедийные данные подвергаются импульсно-кодовой модуляции (PCM), содержащей символы с импульсно-амплитудной модуляцией (PAM) в словах данных. Чтобы получать PCM-модулированные кодированные вторичные мультимедийные данные, слова данных могут подвергаться PCM-модуляции.

Фиг. 7 показывает принципиальную блок-схему декодера 50 согласно варианту осуществления. В данном документе, показаны варианты осуществления анализатора 60 опорных шаблонов и манипулятора 65 сигналов.

Варианты осуществления показывают анализатор 60 опорных шаблонов, содержащий модуль 94 вычисления коэффициентов усиления, сконфигурированный с возможностью вычислять коэффициент усиления или ослабления согласно амплитуде опорного шаблона и амплитуде вычисленного опорного шаблона. Кроме того, манипулятор 65 сигналов содержит умножитель 27, сконфигурированный с возможностью усиливать или ослаблять кодированные вторичные мультимедийные данные согласно коэффициенту усиления или ослабления, чтобы получать кодированные вторичные мультимедийные данные 95 с компенсацией усиления. Следовательно, анализатор 60 опорных шаблонов дополнительно может содержать амплитудный детектор 20, сконфигурированный с возможностью определять амплитуду опорного шаблона. Тем не менее, амплитуда опорного шаблона может сравниваться с известной амплитудой опорного шаблона, чтобы получать коэффициент усиления. Этот способ предпочтительно работает для сигналов без постоянного тока или, другими словами, сигналов с компенсацией усиления. Следовательно, вариант осуществления, показанный на фиг. 7, предлагает дополнительный способ вычисления усиления посредством вычитания положительной амплитуды в опорном шаблоне и отрицательной амплитуды в опорном шаблоне с использованием модуля 24 вычитания и вычисления дроби известной разности между амплитудами и вычисленной разности амплитуд, чтобы получать коэффициент усиления или ослабления.

Варианты осуществления дополнительно показывают анализатор 60 опорных шаблонов, содержащий амплитудный детектор 20, сконфигурированный с возможностью определять амплитуду опорного шаблона и дополнительную амплитуду опорного шаблона, при этом анализатор опорных шаблонов дополнительно содержит модуль 96 компенсации смещения, сконфигурированный с возможностью вычислять смещение 96a кодированных вторичных мультимедийных данных 55 согласно уходу амплитуды опорного шаблона и дополнительной амплитуды опорного шаблона. Следовательно, манипулятор 65 сигналов содержит сумматор, сконфигурированный с возможностью суммировать смещение кодированных вторичных мультимедийных данных с кодированными вторичными мультимедийными данными для того, чтобы получать кодированные вторичные мультимедийные данные 97 с компенсацией смещения. Уход может вычисляться посредством суммирования (положительной) амплитуды опорного шаблона и (отрицательной) дополнительной амплитуды опорного шаблона. Смещение или, согласно вариантам осуществления, одна половина смещения может вычитаться посредством модуля 26 вычитания из кодированных вторичных мультимедийных данных 55, чтобы получать кодированные вторичные мультимедийные данные 97 с компенсацией смещения.

Другими словами, фиг. 7 показывает концептуальную работу секции приемного устройства по предпочтительному варианту осуществления изобретения. AES3 PCM-аудиоданные 55 (вторичные мультимедийные данные), встраивание которых отменено из SDI-видеосигнала (первичных мультимедийных данных), вводятся в опорный амплитудный детектор 20, который усредняет центральные четыре выборки PCM-аудиосигнала в течение периода 41 повторения импульсов и в течение периода 42 повторения импульсов в опорном шаблоне 135 (см. фиг. 7). Это может осуществляться с использованием синхронизирующих схем на основе сигнала 160 вертикальной синхронизации или, в альтернативном варианте осуществления, на основе комбинации сигнала 160 вертикальной синхронизации и анализа входящих PCM-значений, чтобы обнаруживать передний фронт импульса 41 в опорном шаблоне 135. Средняя амплитуда импульса 41 в силу этого сохраняется в регистре 21, и средняя амплитуда импульса 42 аналогично сохраняется в регистре 22. Выводы регистров 21 и 22 суммируются, чтобы определять нулевой уровень исходного сигнала, и вводят в модуль 26 вычитания, который удаляет любое смещение 96a постоянного тока из сигнала. Выводы регистров 21 и 22 вычитаются посредством модуля 24 вычитания, чтобы определять амплитуду полного размаха двух импульсов 41 и 42. Эта амплитуда подается в функциональный блок 25, который вычисляет надлежащий коэффициент 94a усиления, который должен применяться к умножителю 27, чтобы нормализовать вывод модуля 26 вычитания таким образом, что исходные значения PCM-сигнала практически воспроизводятся в выводе умножителя 27. Такие функции, как описано в данном документе, являются знакомыми для специалистов в области техники проектирования аналоговых телевизионных систем в качестве цифровой реализации трехуровневого детектора синхронизации и функции AGC (автоматической регулировки усиления) с управлением по синхронизации.

Хотя операции функций 20, 21, 22, 23, 24, 25, 26, 27 в идеале должны восстанавливать точные значения PCM-сигнала 145 (потока), созданного в выводе фильтра 15 передающего устройства в кодере (см. фиг. 4), ошибки округления в арифметических операциях и звон или другое ухудшение импульсов 41 и 42 могут приводить к тому, что вывод умножителя 27 аппроксимирует только сигнал, сформированный в фильтре 15. Эта ошибка уменьшается посредством усреднения четырех центральных выборок импульсов 41 и 42 в опорном шаблоне и посредством использования PCM-значений достаточного размера таким образом, что такая ошибка аппроксимации не затрагивает заметно решения по символам, как описано ниже.

Дополнительно, назначение символов PCM-значениям, как показано на фиг. 8c, предоставляет возможность усиления передаваемого PCM-сигнала максимум на четыре бита или приблизительно на 24 дБ, а также предоставляет возможность аналогичного ослабления на четыре бита или приблизительно на 24 дБ, при одновременном поддержании трех LSB в качестве допустимого запаса для ошибки округления или ухудшения сигнала.

Согласно дополнительным вариантам осуществления, манипулятор 65 сигналов содержит преобразователь 28 частоты дискретизации, сконфигурированный с возможностью преобразовывать частоту дискретизации, ассоциированную с цифровыми словами 140, согласно предварительно определенному моменту времени первичных мультимедийных данных, указываемых в опорном шаблоне 135, в предварительно определенную частоту дискретизации, с тем чтобы получать повторно дискретизированные цифровые слова. Другими словами, принимаемый опорный шаблон может содержать конкретную последовательность, например, переход через нуль между двумя импульсами, при этом исходная последовательность перед передачей является известной для декодера. Декодер может вычислять, на основе точного анализа позиции перехода через нуль, разность между частотой дискретизации потока цифровых слов перед передачей и после приема потока цифровых слов. Разность может использоваться для того, чтобы декодировать поток цифровых слов с использованием исходной частоты дискретизации слов данных перед передачей.

Варианты осуществления дополнительно показывают анализатор опорных шаблонов, содержащий модуль 32 определения моментов времени, сконфигурированный с возможностью определять предварительно заданный момент времени первичных мультимедийных данных в опорном шаблоне с точки зрения выборок частоты дискретизации, модуль 33 повышающей дискретизации, сконфигурированный с возможностью повышающе дискретизировать диапазон вокруг определенного момента времени, чтобы определять точную позицию момента времени, и дискретизирующий модуль 34 накопления, сконфигурированный с возможностью определять точную позицию множества цифровых слов в потоке цифровых слов, чтобы получать фактическую частоту 92 дискретизации, ассоциированную с цифровыми словами, отличающуюся от предварительно определенной частоты дискретизации.

Следует отметить, что согласно вариантам осуществления, предварительно определенный момент времени первичных мультимедийных данных указывается в качестве перехода через нуль между положительной амплитудой опорного шаблона и отрицательной амплитудой опорного шаблона, что указывает то, что сигнал синхронизации в первичных мультимедийных данных отправлен перед положительной амплитудой опорного шаблона. Следовательно, анализатор опорных шаблонов сконфигурирован с возможностью находить переход через нуль в модуле 32 определения моментов времени. Модуль 33 повышающей дискретизации сконфигурирован с возможностью повышающе дискретизировать в N раз область между выборкой перед переходом через нуль и выборкой после перехода через нуль. Следовательно, значения двух выборок получаются, и значение одного из N значений между двумя выборками, ближайшие к нулю, получается для текущего и следующего опорного шаблона. Дискретизирующий модуль 34 накопления вычисляет частоту дискретизации между опорным шаблоном и следующим опорным шаблоном или, другими словами, вычисляет этот момент времени, соответствующий выборкам в кодированных вторичных мультимедийных данных, причем значение текущего символа может получаться без межсимвольных помех, например, вследствие фильтрации Найквиста кодированных вторичных мультимедийных данных в кодере. Следовательно, преобразователь 28 частоты дискретизации сконфигурирован с возможностью дискретизировать кодированные вторичные мультимедийные данные согласно вычисленным предварительно определенным моментам времени или фактической частоте 92 дискретизации дискретизирующего модуля 34 накопления.

Другими словами, фиг. 7 дополнительно показывает концептуальную принципиальную блок-схему секции приемного устройства согласно вариантам осуществления, которая разрешает PCM-данные из 16-битового PCM-аудиоканала на 48 кГц и декодирует встроенный 32PAM-сигнал 145 в поток битов метаданных или управляющих данных согласно варианту осуществления. Чтобы восстанавливать PAM-символы из нормализованных PCM-данных в выводе умножителя 27, данные должны теперь быть дискретизированы в моменты, соответствующие центру периода символа, чтобы не допускать межсимвольных помех. Это осуществляется следующим образом. Вывод умножителя 27 вводится в функциональный блок 32, который работает аналогично функции детектора 20 и регистров 21 и 22 и выводит в блок 33 PCM-значения нормализованного PCM-сигнала, выводимого посредством умножителя 27, которые возникают в переходе через нуль между импульсами 41 и 42 опорного шаблона.

Функциональный блок 33 принимает эти два PCM-значения и рассчитывает общую алгебраическую формулу для вычисления y-перехвата линейной функции следующим образом:

.

является значением выборки слева от перехода через нуль, и является значением выборки справа от перехода через нуль. Таким образом, можно определять то, в каком из N подразделений периода дискретизации возникает переход через нуль формы сигнала, представленной посредством PCM-выборок. В случае этого предпочтительного варианта осуществления, N задается равным 16, хотя выбор N представляет собой технический компромисс между увеличенной точностью дискретизации символов и необходимостью сохранять дополнительные коэффициенты фильтрации для фильтра 28, как пояснено ниже. Согласно дополнительным вариантам осуществления, N задается равным 128 или 256. Также могут быть подходящими любые другие значения.

Комбинация модуля 34 накопления и дискретизирующего/интерполирующего фильтра 28 используется для того, чтобы повторно дискретизировать входной сигнал из умножителя 27 в моменты времени близко к центру периода символа. Модуль 34 накопления выступает в качестве дробного модуля накопления, аналогичного DDA (цифровому дифференциальному анализатору), к примеру, как описано в работе "Principles of Interactive Computer Graphics", авторов Newman и Sproull, второе издание, Mc-Graw-Hill, 1979 год, фиг. 2-9, и является аналогичным модулям накопления фазы, используемым в проектном решении на основе контура цифровой фазовой синхронизации и прямых цифровых синтезаторах частот.

В этом случае, модуль 34 накопления инициализируется с числом подразделений перехода через нуль, вычисленным посредством функционального блока 33, и затем постепенно увеличивается на половину периода символа, которая в этом случае составляет 1,5 выборки тактового сигнала на 48 кГц для скорости передачи символов в 16 Кбод, чтобы перемещать местоположение модуля накопления от края символа к центру символа. Модуль 34 накопления затем постепенно увеличивается на 1,0 для каждого дискретизированного тактового сигнала, и его дробные биты (log2 N) выбирают фазу интерполирующего фильтра 28, например, гребенки многофазных интерполирующих FIR-фильтров. Система 34 и 28 формирует преобразователь частоты дискретизации, аналогичный преобразователю частоты дискретизации, описанному в работе "A flexible sampling-rate conversion method", авторов Julius O. Smith и P. Gossett, IEEE International Conference on ICASSP, 1984 год, стр. 112-115, март 1984 год. Проектное решение для одного подхода многофазных фильтров описывается в вышеуказанной статье.

Вывод фильтра 28 в таком случае должен содержать, в каждом тактовом цикле, в котором предусмотрен перенос из дробной части модуля 34 накопления, выборку из средней точки принимаемого символа. При таком переносе дискретизирующего модуля 34 накопления, регистру 29 обеспечивается возможность сохранять символ, который затем вводится в функциональный блок 30, который сдвигает 16-битовое значение вправо на семь битов с округлением, чтобы восстанавливать передаваемый символ. Значение пяти младших битов затем декодируется из кода Грея и сохраняется в выходном буфере 31. Контент буфера 31 затем доступен в качестве принимаемого потока битов управляющих аудиоданных или метаданных (например, потока битов вторичных мультимедийных данных 125).

Работа модуля 34 накопления, как описано выше, приводит к регулированию фазы дискретизации символов только на основе опорной временной привязки из импульсов 41 и 42, отправленных после каждого вертикального синхроимпульса. Специалисты в данной области техники должны понимать, что это корректирует фазовые ошибки между входящими символами и дискретизированным тактовым сигналом локальных символов, но может не полностью корректировать частотные ошибки. В силу вышеуказанных проектных целей, частотная ошибка в 100 миллионных долей во временной базе передающего устройства должна приводить к дискретизированной ошибке в 0,15 дискретизированного тактового сигнала или в 0,050 ширины символа в самом конце рабочих данных непосредственно перед интервалом вертикальной синхронизации.

Эта ошибка дополнительно может уменьшаться посредством суммирования частотного члена с приращением модуля 34 накопления. Такой член может вычисляться посредством сравнения дробной части модуля накопления со значением, равным которому оно должно быть инициализировано после периода вертикальной синхронизации. Эта разность этих значений затем может делиться на приблизительное или точное число дискретизированных тактовых сигналов с момента последнего периода вертикальной синхронизации и суммироваться со значением 1,0, используемым для того, чтобы обеспечивать постепенное увеличение в дискретизирующем модуле 34 накопления. Таким образом, может удаляться большая часть эффекта частотной ошибки.

Согласно дополнительному варианту осуществления, манипулятор сигналов содержит модуль 29 обратного преобразования, сконфигурированный с возможностью обратно преобразовывать сгруппированные вторичные мультимедийные данные, содержащие первое число битов, из слов данных, содержащих второе число битов, превышающее первое число битов. Дополнительно или альтернативно, манипулятор сигналов содержит модуль 31 разгруппировки, сконфигурированный с возможностью разгруппировывать сгруппированные вторичные мультимедийные данные, содержащие первое число битов, чтобы получать декодированный поток битов вторичных мультимедийных данных 125', который является представлением потока битов вторичных мультимедийных данных 80 и в силу этого представляет поток битов вторичных мультимедийных данных 125.

Следующие фиг. 8-12 описывают варианты осуществления кодированных вторичных мультимедийных данных, указывающие то, что слова данных PAM-кодируются, и что применение к фильтру 15 (Найквиста) приводит к PCM-сигналу.

Фиг. 8a показывает схематичное представление мультимедийного сигнала 155 согласно варианту осуществления. Мультимедийный сигнал содержит поток цифровых слов 145, представляющих кодированные вторичные мультимедийные данные 55, содержащие метаданные или управляющие данные для первичных мультимедийных данных.

Фиг. 8b показывает схематичное представление мультимедийного сигнала 155 согласно дополнительному варианту осуществления. Мультимедийный сигнал содержит поток 145, представляющий кодированные вторичные мультимедийные данные 55, с использованием опорного шаблона 135 и множества слов 140 данных, при этом множество слов данных содержат вторичные мультимедийные данные. Кроме того, кодированные вторичные мультимедийные данные преобразуются во множество слов данных с зазором до старшего бита слова данных или младшего бита слова данных. Согласно вариантам осуществления, опорный шаблон 135 и слова 140 данных фильтруются, чтобы извлекать цифровые слова 142, или более точно, поток цифровых слов 145.

Опорный шаблон предпочтительно содержит структуру, идентичную структуре слов 140 данных, что означает то, что поток битов вторичных мультимедийных данных 125 содержит опорный шаблон 135, который группируется в сгруппированный опорный шаблон (согласно сгруппированным вторичным мультимедийным данным) и формируется в слове данных, таком как слово 140 данных. Это должно приводить к единообразной обработке в кодере 100, показанном, например, на фиг. 4, в котором переключатель 13 сконфигурирован с возможностью переключаться между опорным шаблоном 135 и метаданными или управляющими данными первичных мультимедийных данных. Другими словами, вторичные мультимедийные данные содержат сгруппированный опорный шаблон и метаданные или управляющие данные для первичных мультимедийных данных в первом варианте осуществления. Во втором варианте осуществления, опорный шаблон является независимым от вторичных мультимедийных данных. Дифференцирование является преимущественным, поскольку обработка опорного шаблона и метаданных или управляющих данных необязательно является совместной или отдельной друг от друга. Кроме того, декодированный мультимедийный сигнал 85 или декодированный поток битов вторичных мультимедийных данных 125' в идеале являются идентичными или, по меньшей мере, аналогичными с точки зрения, например, ошибок округления кодированному потоку битов вторичных мультимедийных данных 55.

Варианты осуществления показывают опорный шаблон 135, содержащий опорную амплитуду кодированных вторичных мультимедийных данных и предварительно определенный момент времени в первичных мультимедийных данных. Согласно дополнительным вариантам осуществления, мультимедийный сигнал содержит дополнительный поток первичных мультимедийных данных, при этом первичные мультимедийные данные содержат аудиоданные или видеоданные. Дополнительный поток, содержащий первичные мультимедийные данные, совмещается с потоком кодированных вторичных мультимедийных данных в предварительно определенный момент времени в первичных мультимедийных данных. Первичное мультимедиа 90a или 90b содержит момент 40 времени, представленный в опорном шаблоне, например, посредством перехода 165 через нуль.

Фиг. 8c показывает схематичное представление слова 140 данных согласно варианту осуществления. Модуль группировки группирует поток битов вторичных мультимедийных данных в сгруппированные вторичные мультимедийные данные 130, содержащие пять битов (например, биты 7-11), при этом модуль преобразования сконфигурирован с возможностью подвергать расширению знака 130a сгруппированные вторичные мультимедийные данные до старшего бита (например, битов 12-15), что означает то, что первый бит (бит 11) сгруппированных вторичных мультимедийных данных дополняется до битов 15-12, при этом модуль преобразования еще дополняет зазор до младших битов (например, битов 6-0) нулями 130b. Дополнительные варианты осуществления показывают вторичные мультимедийные данные, содержащие восемь битов. Дополнение влево или вправо уменьшается, соответственно, на 3 бита всего, чтобы получать 16-битовое слово данных. Также могут быть реализованы другие комбинации, такие как другая длина вторичных мультимедийных данных или слова данных либо другой размер дополнения. Кроме того, опорный шаблон может обрабатываться таким образом, что опорный шаблон содержит структуру, идентичную структуре слова 140 данных.

Фиг. 9a показывает момент 40 времени в первичных мультимедийных данных 160, указывающий, например, интервал гашения вертикальной развертки или дополнительную точку синхронизации в видеокадре. Преимущественно, часть 40 синхронизации указывает подходящий момент времени в видеокадре, который указывает подходящую позицию, чтобы отсекать поток видеокадров. Он может представлять собой интервал гашения вертикальной развертки или, например, определенную строку в видеокадре (например, строку 7), в которой может выполняться отсечка видеопотока. Следовательно, расстояние между двумя последовательными синхронизирующими импульсами составляет один кадр. Один кадр может содержать 800 или 801 аудиовыборку, что приводит приблизительно к 300 словам данных в расчете на видеокадр, и дополнительный опорный шаблон, номер версии, счетчик непрерывности, контроль циклическим избыточным кодом либо дополнительную служебную информацию.

Фиг. 9b показывает схематичное представление потока 145, представляющего кодированные вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных. Поскольку фиг. 9b совмещается с фиг. 9a, показано, что опорный шаблон 135 управляется посредством момента 40 времени. Следовательно, предварительно определенный момент 165 времени, представляющий собой переход через нуль между амплитудами 41 и 42 опорного шаблона согласно этому варианту осуществления, указывает момент 40 времени в сигнале 160 синхронизации первичных мультимедийных данных. Первая амплитуда опорного шаблона 41 может содержать амплитуду 0×0780 HEX, при этом вторая амплитуда 42 опорного шаблона может содержать значение 0xf880 HEX. Рядом с первой и второй амплитудой опорного шаблона, он может дополняться нулями, либо, согласно дополнительным вариантам осуществления, дополнение нулями является частью опорного шаблона. После того, как опорный шаблон обрабатывается, компоновщик потоков применяет слова 140 данных к контейнеру 43 рабочих данных. Дополнительные варианты осуществления показывают дополнительную часть в контейнере 43 рабочих данных, в котором избыточность применяется, например, для того, чтобы выполнять коррекции битовых ошибок, такие как контрольные суммы, биты четности, контроль циклическим избыточным кодом и т.д. Опорный шаблон 135 и слова 140 данных могут фильтроваться, чтобы получать цифровые слова 142, чтобы формировать поток 145.

Следующие фиг. 10-12 подробнее описывают фильтр 15, компоновщик 120 потоков и поток 145. Фиг. 10a показывает формирующий фильтр на основе приподнятого косинуса с крутизной спада=0,98, при этом фиг. 10b показывает формирующий фильтр на основе приподнятого косинуса, дискретизированный согласно частоте дискретизации. Можно отметить, что формирующий фильтр на основе приподнятого косинуса, имеющий крутизну спада в 0,98, помещает практически всю энергию импульса в три средние выборки 180a, 180b. Тем не менее, могут использоваться 13 выборок для добавления или, более точно, только семь коэффициентов, которые отличаются от нуля. Тем не менее, использование только трех средних выборок также должно обеспечивать хорошее восстановление кодированного символа без проблем наложения спектров или межсимвольных помех.

Фиг. 11a и 11b показывают функцию 15' формирующего фильтра на основе приподнятого косинуса с крутизной спада в 0,7 в непрерывном во времени представлении (фиг. 11a) и дискретном во времени представлении (фиг. 11b). Фиг. 11c показывает изображение по фиг. 11b три раза в строке, совмещенной со смещением в две выборки между последовательными функциями фильтра, которые могут быть импульсом 15' данных. Функции фильтра или импульсы 15' данных модулируются, например, умножаются на преобразованные вторичные мультимедийные данные (представляющие один символ вторичных мультимедийных данных) или (символ) опорного шаблона, каждый из которых представляет слово 140 данных или (PCM-модулированный) символ опорного шаблона. Параметры выбираются таким образом, что каждая вторая выборка дискретного представления фильтра приподнятого косинуса является нулем. Следовательно, два смежных импульса размещены на расстоянии в две выборки, так что середина каждого импульса находится в позиции, в которой все другие импульсы пересекают нуль. Этот принцип является довольно простым для процесса модуляции и также простым для демодуляции, при этом анализ средней выборки содержит компенсацию ошибок временной привязки и ошибок усиления. Если отклонение тактового сигнала или разность между исходной частотой дискретизации и фактической частотой дискретизации цифровых слов после передачи является достаточно низкой, восстановление символов в декодере может выполняться без вычисления исходной частоты дискретизации. Кроме того, небольшое число значений амплитуды является полезным для восстановления символов без преобразования частоты дискретизации в декодере. Тем не менее, может быть преимущественным применять фазовую компенсацию независимо от коррекции отклонения тактового сигнала.

Суммирование значений каждой выборки (сверху вниз) приводит к потоку 145 цифровых слов. Кроме того, амплитуда или, другими словами, значения каждой выборки взвешиваются (например, умножаются) со словом 140 данных или символом опорного шаблона, что может рассматриваться в качестве импульсно-амплитудной модуляции. Эти схематичные представления применяются к опорному шаблону и словам данных согласно вариантам осуществления. Кроме того, следует отметить, что варианты осуществления, описанные для 24000 символов в секунду и 256 значений амплитуды (8-битовых) или 32 значений амплитуды (5-битовых), являются примерными и не ограничивают объем изобретения. Другие скорости передачи символов являются возможными, как более низкие скорости, так и более высокие скорости передачи символов с использованием преобразования частоты дискретизации, с тем чтобы вставлять символы в переходах через нуль потока, содержащего вторичные мультимедийные данные, а также различные разрешения для шагов амплитуды.

Фиг. 12 показывает схематичное представление потока 145 согласно варианту осуществления. Фиг. 12a схематично показывает непрерывное во времени представление потока 145, содержащего фильтрованный опорный шаблон 135 и фильтрованное слово 140 данных. Кроме того, показан второй опорный шаблон 135a, который необязательно может применяться в конце кадра, чтобы достигать точного восстановления временной привязки в кадре сигнала. Следовательно, второй символ 135a синхронизации (или опорный шаблон) может иметь немного более низкую амплитуду, чем первый символ 135 синхронизации, и кроме того, первый символ 135 синхронизации может содержать более высокую амплитуду, чем все другие символы. Таким образом, очень эффективным является то, чтобы выполнять поиск первого символа синхронизации. Кроме того, слово данных может содержать один или более избыточных битов, чтобы обеспечивать обнаружение ошибок. Фиг. 12b показывает поток 145 в укрупненной версии. Фиг. 12c показывает сигнал, аналогичный сигналу, показанному на фиг. 12a, в дискретной во времени форме при выборках частоты дискретизации. Кроме того, фиг. 12d показывает сигнал, аналогичный сигналу, показанному на фиг. 12b, в дискретной во времени форме.

Фиг. 13 показывает блок-схему последовательности операций способа 1100 для декодирования мультимедийного сигнала, содержащего поток, представляющий вторичные мультимедийные данные, с использованием опорного шаблона и множества слов данных, способ 1100 содержит этап 1105 для восстановления вторичных мультимедийных данных с помощью декодера, причем восстановление содержит манипулирование принимаемым потоком цифровых слов относительно амплитуд, представленных посредством принимаемых цифровых слов, или использование повторной дискретизации, и этап 1110 для извлечения потока битов из восстановленных вторичных мультимедийных данных.

Фиг. 14 показывает блок-схему последовательности операций способа 1200 для кодирования мультимедийного сигнала с помощью кодера. Способ 1200 содержит этап 1205 для кодирования вторичных мультимедийных данных с помощью кодера с использованием добавления избыточности или ограничения полосы частот и этап 1210 для вывода кодированных вторичных мультимедийных данных в качестве потока цифровых слов.

Структурные аспекты предпочтительного варианта осуществления

Описанные варианты осуществления могут реализовываться в программном обеспечении в качестве последовательности компьютерных инструкций или в аппаратных компонентах. Операции, описанные здесь, типично выполняются в качестве программных инструкций посредством CPU компьютера или процессора цифровых сигналов, и регистры и операторы, показанные на чертежах, могут реализовываться посредством соответствующих компьютерных инструкций. Тем не менее, это не исключает варианты осуществления в эквивалентной аппаратной конструкции с использованием аппаратных компонентов. Дополнительно, работа изобретения показана здесь последовательным, элементарным способом. Специалисты в данной области техники должны понимать, что операции могут комбинироваться, преобразовываться или предварительно вычисляться для того, чтобы оптимизировать эффективность при реализации на конкретной аппаратной или программной платформе.

Альтернативный вариант осуществления для только аудиосистем

Кроме того, изобретение может использоваться в только аудиосистеме без распределенной вертикальной синхронизации посредством замены сигнала вертикальной синхронизации в передающем устройстве на эквивалентный локально сформированный сигнал и посредством защиты потока битов данных, вводимого в регистр 11, от шаблонов символов, которые формируют импульсы, идентичные импульсу 41, через сверточное кодирование или другое средство. Опорный амплитудный детектор 20 затем может модифицироваться, чтобы повторно формировать локальный сигнал синхронизации в приемном устройстве посредством обнаружения импульса 41.

В дополнительном варианте осуществления, модуляция для аудиометаданных, которые предоставляются в качестве потока битов, чтобы получать аудиоподобный цифровой поток, к примеру, поток в выводе блока 3 на фиг. 1, может содержать несколько процедур альтернативно друг другу или в дополнение друг к другу. В частности, поток, выводимый посредством блока 3 на фиг. 6 и вводимый в блок 4 на фиг. 6, например, представляет собой последовательность PCM-значений, к примеру, 16-битовых или 32-битовых PCM-значений, таких как значения, которые, например, сохраняются на CD. Естественно, поток битов управляющих данных или метаданных имеет определенный синтаксис потока битов, и фактические цифровые слова, состоящие из нескольких битов в потоке битов метаданных, типично должны иметь переменные длины. Тем не менее, блок 3 или, в общем, процедура для формирования аудиоподобного цифрового потока из управляющих аудиоданных или метаданных содержит модуль группировки для группировки первого числа битов из потока. Таким образом, это означает, например, что последовательность в 5 битов принимается из потока битов метаданных. После этого определяется состояние, представленное посредством первого числа битов, т.е. посредством 5 битов. Это состояние представляет собой одно из 32 состояний. Затем, в одном варианте осуществления, состояние представляется посредством второго числа битов, причем второе число битов превышает первое число битов. Это представление во второе число битов, например, может быть 16-битовым представлением или 32-битовым представлением и т.п. Тем не менее, в любом случае, второе число битов превышает первое число битов, так что определенный вид устойчивости или избыточности вводится в представление. Далее состояние, представленное посредством второго числа битов, записывается в последовательность цифровых слов, все из которых состоят из второго числа битов, и эта запись выполняются один раз либо, чтобы еще более увеличивать избыточность, более одного раза в последовательности. Предпочтительно, состояние записывается в последовательность два, три или еще большее число раз в последовательности, так что аудиоподобный цифровой поток, сформированный посредством этого варианта осуществления, имеет лестничную форму, всегда имеющую группу идентичных значений, после которой следует другая группа идентичных значений, и высота или состояние этих значений представляет собой только одно из определенного числа состояний, к примеру, только одно из 32 различных возможных состояний, хотя отдельные значения представлены, например, не посредством 5-битовых значений, а посредством 16- или 32-битовых значений. Альтернативно, определенная избыточность уже получена посредством группировки в первое число битов и посредством последующей записи первого числа битов в последовательность цифровых слов более одного раза в последовательности, т.е. посредством повторения определенного числа раз.

В зависимости от применяемой избыточности, т.е. избыточности за счет наличия второго числа битов, превышающего первое число битов, и/или за счет повторения состояния определенное число раз, могут выполняться различные способы восстановления на стороне приемного устройства. Например, когда выполняется только некоторый вид повторения, то, например, принимаются три последующих значения, которые должны быть идентичными, и принимается решение, скажем, что значение является значением, которое представлено посредством двух или трех этих значений. Таким образом, может приниматься решение по принципу большинства.

Альтернативно или дополнительно и, в частности, когда применяется вариант осуществления со вторым числом битов, превышающим первое число битов, т.е. когда 5-битовое состояние, например, представлено посредством 16 битов, в дополнение к решению по принципу большинства или в качестве дополнительного компонента решения, или вместо решения по принципу большинства, фильтрация нижних частот или вычисление среднего значения и т.п. может выполняться для того, чтобы узнавать или восстанавливать исходное значение.

Изобретаемый передаваемый кодированный сигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

Варианты осуществления показывают различный PCM-канал для метаданных или управляющих данных, обеспечивающий возможность передачи аудиосигналов сущности (или первичных мультимедийных данных) при полном качестве и разрешении. Кроме того, сигнал управляющих данных или метаданных может преобразовываться в сигнал, который может оставаться в силе после типичных ухудшений PCM-аудиосигналов, таких как изменения усиления, временные базовые ошибки, повторная дискретизация, изменения задержки относительно первичного сигнала и т.д. Кроме того, варианты осуществления могут работать в предпочтительном, но не исключительном, случае с некодированными или несжатыми сигналами сущности.

Ниже описываются дополнительные предпочтительные варианты осуществления.

Новая телевизионная аудиосистема на основе MPEG-H обеспечивает три первичных новых признака для телевизионных широковещательных передач. "MPEG-H" означает часть 3 стандарта MPEG-H, ISO/IEC 23008-3, и может быть не связана с другими частями, относящимися к MMT-транспортировке, HEVC-кодированию видео и т.д. Более конкретно, в новую телевизионную аудиосистему, разрабатываемую посредством Альянса по стандарту MPEG-H-аудио на основе MPEG-H-аудиокодека. Три новых первичных признака следующие:

- Интерактивность для того, чтобы обеспечивать возможность потребителям выбирать различные аудиопредставления, такие как комментарий от лица команды хозяев поля или команды гостей на спортивных соревнованиях, либо повышать или понижать громкость конкретных аудиоэлементов в программе (таких как диалог или звуковые эффекты) согласно своим предпочтениям.

- Погружающий звук, чтобы повышать реализм звука посредством добавления высотных каналов, с использованием режима амбиофонии высшего порядка MPEG-H или статически панорамированных объектов выше слушателя.

- Многоплатформенная адаптация. В отличие от сегодняшнего телевизионного звука, MPEG-H-система индивидуально адаптирует воспроизведение таким образом, что оно звучит наилучшим образом в диапазоне устройств и окружений: от тихих домашних кинотеатров с динамиками до метро или аэропорта с наушниками.

Все эти признаки находятся под управлением вещателя или распространителя контента, предоставляя новые творческие возможности, такие как способность эффективно добавлять дополнительные языки, игроков или официальные микрофоны, либо, как продемонстрировал Альянс, средства радиосвязи между машиной и экипажем механиков в гонках.

Поскольку MPEG-H-аудиосистема спроектирована с возможностью работать на немодифицированных встроенных HD-SDI-аудиоканалах, станции могут начинать реализацию MPEG-H-аудиопризнаков, которые они выбирают, без изменения своих внутренних технологических или рабочих процедур. Для вещателей предложен для рассмотрения четырехстадийный процесс при приспособлении MPEG-H:

- Передача программирования стерео и объемного звучания с использованием MPEG-H-аудио. Она должна обеспечивать возможность вещателям получать эффективность по скорости передачи битов и новые мобильные аудиопризнаки MPEG-H-аудио без функциональных изменений.

- Добавление аудиообъектов для дополнительных языков или альтернативного комментария, что обеспечивает зрителям аудио по технологии "Слушай свою любимую команду"™ или прослушивание радиостанции любимого гонщика, а также предоставляет предписанные признаки доступа, такие как визуальное описание.

- Добавление погружающего звука, чтобы повышать реализм звука посредством добавления высотных каналов, амбиофонии высшего порядка или статически панорамированных объектов выше слушателя.

- Добавление динамических аудиообъектов. В отличие от статических объектов, фиксированных по позиции, динамические объекты перемещаются во времени, чтобы отслеживать видеодействие или предоставлять творческие эффекты. Если звуковые эффекты должны быть панорамированы, например, динамический объект может уменьшать требуемую скорость передачи битов по сравнению с отправкой пяти- или девятиканального статического объекта.

Адаптация производства вещания вживую и воспроизведения для MPEG-H: два подхода

В сегодняшних телевизионных центрах, видеосигналы, передаваемые вживую или в реальном времени, транспортируются с использованием HD-SDI-интерфейса, который поддерживает вплоть до 16 каналов встроенного аудио. Примерная система спроектирована с возможностью использовать эти каналы непосредственно для каналов, объектов и других аудиоэлементов программы.

Фиг. 15 показывает принципиальную схему MPEG-H-системы распространения согласно варианту осуществления, причем фиг. 15a показывает систему в фиксированном режиме, а фиг. 15b показывает систему в режиме управляющей дорожки. Для вышеприведенных стадий 1-3, может использоваться традиционный подход (см. фиг. 15a) на основе использования фиксированного канального преобразования или выдержки и фиксированных метаданных кодирования. Этот подход имеет преимущество простоты в понимании и требует очень мало с точки зрения функциональных изменений, если объекты не используются, или используются только несколько процедурных объектов. Этот подход называется фиксированным режимом, хотя предварительные установки могут использоваться под внешним управлением для того, чтобы изменять настройки кодера.

Фиксированный режим, представленный посредством фиг. 15a, по существу, показывает модуль 200 мониторинга и авторской разработки MPEG-H-аудио, который может работать в режиме мониторинга. Ввод в модуль 200 мониторинга и авторской разработки представляет собой видео со встроенным аудио 205, к примеру, HD-SDI-сигнал, содержащий до 16 аудиоканалов. Модуль 200 мониторинга и авторской разработки MPEG-H-аудио может быть сконфигурирован с возможностью использовать управляющий интерфейс 210 на основе веб-технологий, который задает фиксированные предварительные установки для параметров назначения каналов и аудиопараметров. Вывод модуля 200 мониторинга и авторской разработки MPEG-H-аудио представляет собой модуль 215 удаленного управления, содержащий элементы 220 управления и мониторинга и интегрированные инструменты 225 управления громкостью. Управляющий интерфейс на основе веб-технологий или модуль удаленного управления (либо оба из них) может соединяться с модулем 200 мониторинга и авторской разработки MPEG-H-аудио посредством соединения 240 по Интернет-протоколу. Кроме того, модуль 200 мониторинга и авторской разработки MPEG-H-аудио может соединяться с динамиками (не показаны) с использованием соединения 235.

HD-SDI-сигнал 205 вводится в кодер 245 поставки или распространения видео/MPEG-H-аудио, содержащий видеокодер 250 и MPEG-H-кодер 255. В MPEG-H-кодер могут подаваться фиксированные предварительные установки для параметров назначения каналов и аудиопараметров с использованием управляющего интерфейса 210 на основе веб-технологий и соединения 240 по Интернет-протоколу. Вывод видеокодера 250 и MPEG-H-кодера 255 вводится в транспортный мультиплексор 260. Мультиплексированный сигнал 265 распространяется или передается с использованием, например, Интернет-протокола (IP) или асинхронного последовательного интерфейса цифровой широковещательной передачи видео (DVB/ASI).

Декодер 270 поставки или распространения видео/MPEG-H-аудио принимает мультиплексированный сигнал 265, и транспортный демультиплексор 275 демультиплексирует мультиплексированный сигнал 265. Демультиплексированный сигнал может подаваться в видеодекодер 280 и MPEG-H-декодер 285, формирующий декодированную версию 205' видеосигнала со встроенным аудио, содержащим вплоть до 16 каналов 205. Дополнительная аудиообработка, применяемая к декодированному сигналу 205', может быть эквивалентной обработке аудиосигналов в HD-SDI-видеосигнале 205 перед передачей.

Согласно варианту осуществления, разработан альтернативный подход, режим управляющей дорожки (см. фиг. 15b), который использует управляющую дорожку, размещенную в одном из аудиоканалов, обычно в канале 16. Управляющая дорожка может содержать метаданные или управляющие данные для первичных мультимедийных данных.

Принципиальная блок-схема, представленная на фиг. 15b, показывает несколько изменений по сравнению с блок-схемой, описанной относительно фиг. 15a. Во-первых, модуль 200 мониторинга MPEG-H-аудио работает в режиме авторской разработки, который обеспечивает возможность модулю 200 мониторинга формировать управляющую дорожку и вставлять управляющую дорожку, например, в канал 16 видео со встроенным аудио, содержащим вплоть до 15 каналов. 16-й канал может оставаться для управляющей дорожки. Параметры назначения каналов и аудиопараметры для формирования управляющей дорожки могут задаваться посредством управляющего интерфейса 210 на основе веб-технологий. Последующая обработка видеосигнала со встроенным аудио, содержащим вплоть до 15 аудиоканалов и сформированную управляющую дорожку 205'', является аналогичной обработке сигналов на фиг. 15a. Тем не менее, параметры назначения каналов и аудиопараметры считываются из управляющей дорожки и не должны применяться с использованием, например, веб-интерфейса.

Управляющая дорожка может синхронизироваться в вертикальной синхронизацией, чтобы обеспечивать возможность простого редактирования и переключения видео. Управляющая дорожка спроектирована с возможностью работать идентично продольному временному кодовому сигналу. Она остается в силе после нормальной обработки PCM-аудиоканала, но она не может успешно передаваться по сжатому аудиоканалу, такому как кодек поставки II уровня. Для этой ситуации может использоваться кодер поставки MPEG-H-аудио, который сжимает аудиоканалы для передачи и преобразует управляющую дорожку в метаданные, переносимые в MPEG-H-потоке аудиобитов.

Управляющая дорожка:

- содержит всю конфигурационную информацию, необходимую посредством кодера, включающую в себя:

- канальное преобразование или выдержку,

- имена или метки объектов,

- группы объектов и контрольные пределы,

- программный опорный уровень ("диалнорму" в терминологии MPEG), усиления при низведении и DRC-профили,

- информацию позиции для динамических объектов,

- может переключаться в маршрутизирующих, производственных или главных управляющих переключателях,

- должна проходить через кадровые синхронизаторы и другое терминальное оборудование,

- может редактироваться с другими аудиодорожками в видеоредакторе или рабочей аудиостанции,

- должна проходить через аудиоконсоль с другими аудиодорожками,

- предоставляет покадрово точные переходы кодированного или отслеживаемого аудио, чтобы совпадать с переключениями или редактированиями видеопрограмм,

- не требует конфигурирования оборудования для обработки в "режиме данных" или "неаудиорежиме" канала управляющей дорожки.

Управляющая дорожка, поскольку она переносится в аудиоканале с контентом, предоставляет автоматическое задание всех параметров MPEG-H-аудиокодера без программирования вручную или необходимости модифицировать другое оборудование в центре. Кодер транслирует информацию управляющей дорожки в MPEG-H-аудиометаданные, которые передаются в кодированном потоке битов в MPEG-H-аудиодекодер. Этот режим работы называется режимом управляющей дорожки.

Профессиональные декодеры могут работать в режиме поставки или передачи, в котором они воссоздают сигнал управляющей дорожки из принимаемых метаданных, или в режиме выдачи, в котором они подготавливают посредством рендеринга аудиоканалы идентично потребительскому декодеру.

Управляющая дорожка может формироваться посредством модуля мониторинга и авторской разработки аудио, используемого посредством аудиооператора для программы, передаваемой вживую. Для поглощения записанного контента, либо HD-SDI-сигнал может проходить через модуль мониторинга и авторской разработки аудио для добавления управляющей дорожки в ходе дублирования в реальном времени, либо файловые утилиты могут использоваться для того, чтобы вставлять управляющую дорожку в общие форматы файла, такие как QuickTime/MP4FF или MXF. Конечно, модуль мониторинга и авторской разработки аудио также использует управляющую дорожку в ходе мониторинга, чтобы моделировать действия MPEG-H-аудиодекодера.

Поскольку управляющая дорожка может редактироваться точно так же, как любой другой аудиоканал, программирование с различными назначениями каналов или различными объектами может комбинироваться в редакторе только посредством отбрасывания элементов на временной шкале редактирования.

Использование управляющей дорожки означает то, что один аудиоканал более недоступен для объектов или каналов, но также открывает возможность использования динамических объектов. Для панорамированных звуков, таких как звуковые эффекты, несколько каналов статических объектов могут требоваться для того, чтобы создавать эффект, который может достигаться с одноканальным динамическим объектом.

Подход на основе управляющей дорожки обеспечивает полную гибкость в MPEG-H-аудиорежимах, используемых в течение вещательного дня. Можно легко иметь передачу со стереооснованием, и два объекта диалога прерываются посредством программных вставок в полностью погружающем звуке 7.1+4H или даже в амбиофонии высшего порядка, с вкраплением рекламных пауз в стерео или стандарте объемного 5.1-звучания.

Одна новая показанная возможность представляет собой способность расширять охват рекламных вставок таким образом, что они включают в себя демографические группы, которым более удобно прослушивание рекламных объявлений на своем основном языке. Локальные точечные решения, предназначенные для достижения наиболее широкой возможной аудитории, могут представлять собой голоса за кадром или диалог на нескольких языках, выбранных рекламодателем. Признак предпочтительного языка примерной системы представляет рекламную вставку на предпочитаемом зрителями языке, в случае вещания, и автоматически переключается обратно на язык по умолчанию для другого программирования или рекламных вставок, которые не имеют этого языка.

С определенными ограничениями на смены контента, главным образом в ходе операций отсоединения и присоединения к сети, можно иметь смесь нового контента с сигналом управляющей дорожки и унаследованным контентом без. Например, MPEG-H-аудиокодер и модуль мониторинга и авторской разработки MPEG-H-аудио могут задаваться с возможностью переключаться на режим стандарта объемного 5.1-звучания с фиксированной громкостью в -24 LKFS (громкость, K-взвешенная, относительно полного масштаба) и стандартные усиления при низведении и DRC-профили, которые объект типично использует сегодня. Таким образом, унаследованный контент должен кодироваться как есть сегодня, и новый контент с погружающими или интерактивными признаками должен автоматически кодироваться с корректными настройками.

Дополнительные варианты осуществления изобретения относятся к нижеприведенным примерам:

1. Система для передачи или приема данных в цифровом аудиоканале посредством цифровой модуляции или кодирования упомянутых данных в сигнал, подвергнутый ограничению полосы частот или допускающий ухудшения передачи для передачи в упомянутом канале, либо в сигнал, который не представляет собой необработанные биты, пакетированные между собой тем или иным образом, но остается в силе после ухудшений характеристик канала.

2. Система по примеру 1, в которой данные являются управляющими данными, метаданными или другими данными, связанными с аудиосигналом, переносимым во втором цифровом аудиоканале.

3. Система для передачи цифрового потока аудиобитов со сжатыми данными в цифровом аудиоканале посредством цифровой модуляции или кодирования упомянутого потока битов для передачи в упомянутом канале.

4. Система по примеру 3, в которой цифровой поток аудиобитов со сжатыми данными содержит метаданные или управляющие данные.

5. Система по примеру 3, в которой цифровой поток аудиобитов со сжатыми данными только содержит метаданные или управляющие данные, а не связанную аудиоинформацию.

6. Система по примеру 1, в которой упомянутый цифровой аудиоканал встраивается в цифровой видеосигнал.

7. Система по примеру 2, в которой упомянутый цифровой аудиоканал встраивается в цифровой видеосигнал.

8. Система по примеру 3, в которой упомянутый цифровой аудиоканал встраивается в цифровой видеосигнал.

9. Система по примеру 4, в которой упомянутый цифровой аудиоканал встраивается в цифровой видеосигнал.

10. Система по примеру 5, в которой упомянутый цифровой аудиоканал встраивается в цифровой видеосигнал.

11. Способ, устройство или компьютерная программа для модуляции управляющих аудиоданных или метаданных, содержащих поток битов, чтобы получать аудиоподобный цифровой поток, содержащий:

- группировку первого числа битов;

- определение состояния, представленного посредством первого числа битов;

- представление состояния посредством второго числа битов, причем второе число битов превышает первое число битов, и запись второго числа битов в последовательность цифровых слов, состоящую из второго числа битов, один раз или более одного раза в последовательности; или

- запись первого числа битов в последовательность цифровых слов более одного раза в последовательности.

12. Способ, устройство или компьютерная программа для демодуляции цифрового потока, чтобы получать поток битов аудиометаданных или управляющих данных, содержащий:

- выполнение решения по принципу большинства или вычисления среднего значения между последовательностью принимаемых аудиовыборок, чтобы получать группированное первое число битов, или квантования аудиовыборки в число битов; и

- синтаксический анализ последовательности битов, полученных посредством конкатенации двух или более групп первого числа битов, чтобы получать информацию метаданных.

Хотя настоящее изобретение описано в контексте блок-схем, на которых блоки представляют фактические или логические аппаратные компоненты, настоящее изобретение также может реализовываться посредством машинореализованного способа. Во втором случае, блоки представляют соответствующие этапы способа, причем эти этапы означают функциональности, выполняемые посредством соответствующих логических или физических аппаратных блоков.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код сконфигурирован с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой носитель хранения данных (или энергонезависимый носитель хранения данных, такой как цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть сконфигурирована с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, сконфигурированную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 14496-3 Information technology - Coding of audio-visual objects - Part 3: Audio, www.iso.org.

International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 23003-1:2007 Information technology - MPEG audio technologies - Part 1: MPEG Surround, www.iso.org.

International Organization for Standardization and International Electrotechnical Commission, ISO/IEC DIS 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, www.iso.org.

European Telecommunications Standards Institute, ETSI TS 101 154: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 transport stream, www.etsi.org.

Advanced Television Systems Committee, Inc., Audio Compression Standard A/52, www.atsc.org.

Dolby Laboratories, Inc., "Post It with Dolby E", www.dolby.com, 2003 год.

Snell Ltd., "White Paper: Dolby E Processing, Working with Dolby E in the Broadcast Environment", www.snellgroup.com, 2011 год.

A. W. J. Oomen, M. E. Groenewegen, R. G. van der Waal and R. N. J. Veldhuis, "The Variable-Bit-Rate Buried-Data Channel for Compact Disc", J. Audio Eng. Soc., том 43, стр. 23-28 (январь/февраль 1995 года).

Audio Engineering Society, AES 3-2003, AES standard for digital audio - Digital input-output interfacing - Serial transmission format for two-channel linearly represented digital audio data, www.aes.org, 2003 год.

Audio Engineering Society, AES10-2008 (r2014): AES Recommended Practice for Digital Audio Engineering - Serial Multichannel Audio Digital Interface (MADI), www.aes.org, 2014 год.

Audio Engineering Society, AES67-2013: AES standard for audio applications of networks - High-performance streaming audio-over-IP interoperability, www.aes.org, 2013 год.

Society of Motion Picture and Television Engineers, Ancillary Data Packet and Space Formatting, ST 291-1:2011.

Society of Motion Picture and Television Engineers, 1,5 Gb/s Signal/Data Serial Interface ST 292-1:2012.

Society of Motion Picture and Television Engineers, Format for Non-PCM Audio and Data in the AES3 Serial Digital Audio Interface ST 337:2008.

Society of Motion Picture and Television Engineers, Format of Audio Metadata and Description of the Asynchronous Serial Bitstream Transport ST 2020-1:2014.

"A flexible sampling-rate conversion method", Julius O. Smith and P. Gossett, IEEE International Conference on ICASSP 1984, стр. 112-115, март 1984 года.

"Principles of Interactive Computer Graphics", Newman and Sproull, второе издание, Mc-Graw-Hill, 1979 год, фиг. 2-9.

1. Кодер (100) для кодирования вторичных мультимедийных данных (80, 125, 130), содержащих метаданные или управляющие данные для первичных мультимедийных данных (90, 90a, 90b), причем кодер содержит:

- модуль (105) группировки, сконфигурированный с возможностью группировки потока битов вторичных мультимедийных данных (125), чтобы формировать сгруппированные вторичные мультимедийные данные (130), представляющие слова (140) данных;

- формирователь (17) опорных сигналов для формирования опорного шаблона (135), указывающего опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных; и

- компоновщик (120) потоков, содержащий фильтр (15) формирования импульсов, чтобы подвергать фильтрации нижних частот слова (140) данных или опорный шаблон (135), чтобы получать импульсы (15') данных, содержащие длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом амплитуда импульса (15') данных взвешивается согласно словам (140) данных и опорному шаблону (135), при этом фильтр (15) формирования импульсов сконфигурирован с возможностью суммировать последовательные взвешенные импульсы данных в моменты предварительно определенной частоты дискретизации, с тем чтобы получать поток (145) цифровых слов (142);

при этом кодер (100) сконфигурирован с возможностью выводить поток (145) цифровых слов (142) в качестве вторичных мультимедийных данных (55).

2. Кодер (100) по п. 1, в котором кодер сконфигурирован с возможностью добавления избыточности посредством цифровой модуляции.

3. Кодер (100) по п. 1, в котором цифровая модуляция выполняется таким образом, что два или более битов вторичных мультимедийных данных (80, 125, 130) передаются в каждом цифровом слове (142) потока (145) цифровых слов (142).

4. Кодер (100) по п. 1, при этом кодер сконфигурирован с возможностью выводить поток (145) цифровых слов (142) таким образом, что поток (145) цифровых слов (142) допускает передачу по PCM-аудиоканалу.

5. Кодер (100) по п. 1, при этом кодер сконфигурирован с возможностью выводить дополнительный поток цифровых слов, причем дополнительный поток цифровых слов представляет первичные мультимедийные данные, причем дополнительный поток является отдельным от потока (145) цифровых слов (142).

6. Кодер (100) по п. 5, в котором первичные мультимедийные данные являются аудиоданными, при этом вторичные мультимедийные данные являются метаданными для аудиоданных или управляющими данными для аудиоданных.

7. Кодер (100) по п. 5, при этом кодер сконфигурирован с возможностью выводить поток (145) цифровых слов (142) и дополнительный поток цифровых слов таким образом, что дополнительный поток цифровых слов допускает передачу по первому PCM-аудиоканалу, и таким образом, что поток (145) цифровых слов (142) допускает передачу по второму PCM-аудиоканалу, отличающемуся от первого PCM-аудиоканала.

8. Кодер (100) по п. 5, в котором каждое из цифровых слов дополнительного потока, представляющего первичные мультимедийные данные (90a, 90b), имеет предварительно заданное число битов, большее 8 битов и меньшее 32 битов, при этом каждое из цифровых слов (142) потока (145) цифровых слов (142) также имеет предварительно определенное число битов.

9. Кодер (100) по п. 1, в котором цифровая модуляция представляет собой импульсно-амплитудную модуляцию.

10. Кодер (100) по п. 1, при этом фильтр (15) формирования импульсов является формирующим фильтром на основе приподнятого косинуса.

11. Кодер (100) по п. 1, при этом кодер сконфигурирован с возможностью выводить видеопоток, представляющий последовательность видеоизображений, при этом кодер сконфигурирован с возможностью выводить поток (145) цифровых слов (142) таким образом, что управляющие данные или метаданные вторичных мультимедийных данных, связанных с определенным видеоизображением, связаны с определенным видеоизображением.

12. Кодер (100) по п. 11, при этом кодер сконфигурирован с возможностью выводить поток (145) цифровых слов (142) в качестве первого потока цифровых слов (142), ассоциированных с первым видеоизображением из последовательности видеоизображений, и выводить поток (145) цифровых слов (142) в качестве второго потока цифровых слов, ассоциированных со вторым видеоизображением из последовательности видеоизображений, при этом первое и второе цифровые слова являются идентичными между собой.

13. Кодер (100) по п. 1, при этом кодер (100) сконфигурирован с возможностью формировать цифровые слова (142), причем цифровые слова (142) имеют 12-28 битов, либо при этом цифровые слова (142) дискретизированы на частоте дискретизации от 30 до 55 кГц, либо при этом цифровые слова (142) имеют динамический диапазон в 70-160 дБ или имеют номинальный уровень сигнала полного RMS-масштаба в -20 дБ.

14. Кодер (100) по п. 1, при этом кодер сконфигурирован с возможностью использовать верхнюю частоту для ограничения полосы частот вторичных мультимедийных данных, составляющей от 15 до 27,5 кГц для частоты дискретизации от 30 до 55 кГц.

15. Кодер (100) по п. 1, причем кодер содержит

модуль (115) преобразования, сконфигурированный с возможностью преобразования группы вторичных мультимедийных данных, содержащих первое число битов, в слово (140) данных, содержащее второе число битов, превышающее первое число битов, при этом сгруппированные вторичные мультимедийные данные (130) совмещаются с зазором до старшего бита или младшего бита слова (140) данных.

16. Кодер (100) по п. 1, при этом слово (140) данных содержит сгруппированные вторичные мультимедийные данные (130), подвергнутые расширению знака до старшего бита (130a), и зазор (130b) между сгруппированными вторичными мультимедийными данными и младшими битами дополнен нулями, и опорный шаблон (135) содержит структуру, идентичную структуре слова (140) данных.

17. Кодер (100) по п. 1,

в котором фильтр (15) формирования импульсов сконфигурирован с возможностью получать нулевые точки (165) в моменты предварительно определенной частоты дискретизации импульса (15') данных;

при этом компоновщик (120) потоков сконфигурирован с возможностью компоновать поток, представляющий кодированные вторичные мультимедийные данные (55), с использованием опорного шаблона (135) и множества слов (140) данных таким образом, что нулевые точки (180c) импульса (15') данных совмещаются с максимумом (180a) дополнительного импульса данных, чтобы получать устойчивый к межсимвольным помехам (ISI) поток, представляющий кодированные вторичные мультимедийные данные (55).

18. Кодер (100) по п. 1, в котором фильтр (15) содержит частоту отсечки, составляющую менее 1,5 раз от частоты дискретизации первичных мультимедийных данных.

19. Кодер (100) по п. 1, в котором формирователь (17) опорных сигналов сконфигурирован с возможностью формировать сгруппированный опорный шаблон, содержащий первое число битов, при этом формирователь (17) опорных сигналов дополнительно сконфигурирован с возможностью преобразовывать сгруппированный опорный шаблон в слово (140) данных, содержащее второе число битов, превышающее первое число битов; или

при этом модуль (115) преобразования сконфигурирован с возможностью преобразовывать сгруппированный опорный шаблон, содержащий первое число битов, в слово (140) данных, содержащее второе число битов, превышающее первое число битов.

20. Кодер по п. 1, при этом кодер (100) сконфигурирован с возможностью выводить кодированные вторичные мультимедийные данные (55) в качестве потока (145) цифровых слов (142) в качестве управляющей дорожки и выводить вплоть до 15 каналов первичных мультимедийных данных в качестве аудиодорожек, при этом управляющая дорожка и аудиодорожки формируются в соответствии с AES3-стандартом.

21. Декодер (50) для декодирования мультимедийного сигнала (155), содержащего принимаемый поток (145) цифровых слов (142), представляющих кодированные вторичные мультимедийные данные (55), содержащие метаданные или управляющие данные для первичных мультимедийных данных (90, 90a, 90b), и опорный шаблон (135), указывающий опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных, при этом декодер (50) содержит:

- анализатор (60) опорных шаблонов для анализа опорного шаблона (135) кодированных вторичных мультимедийных данных (55), при этом анализатор (60) опорных шаблонов сконфигурирован с возможностью определять опорную амплитуду (41, 42) опорного шаблона (135) или определять предварительно определенный момент (40) времени в первичных мультимедийных данных (90, 90a, 90b);

- манипулятор (65) сигналов для манипулирования кодированными вторичными мультимедийными данными (55) в соответствии с проанализированным опорным шаблоном (75) и вычисленным опорным шаблоном, чтобы получать вторичные мультимедийные данные (80, 125), при этом манипулятор (65) сигналов сконфигурирован для получения потока (125') битов из восстановленных вторичных мультимедийных данных (80, 125), чтобы

вычислять и компенсировать усиление, или ослабление, или смещение постоянного тока, применяемое к потоку (145) цифровых слов; или

преобразовывать частоту дискретизации, ассоциированную с цифровыми словами (142), согласно предварительно определенному моменту времени первичных мультимедийных данных, указываемых в опорном шаблоне (135), в предварительно определенную частоту дискретизации.

22. Декодер (50) по п. 21, в котором восстановление содержит манипулирование принимаемым потоком (145) цифровых слов (142) относительно амплитуд, представленных посредством принимаемых цифровых слов (142).

23. Декодер (50) по п. 21, в котором мультимедийный сигнал дополнительно содержит дополнительный принимаемый поток цифровых слов, представляющий кодированные первичные мультимедийные данные, причем дополнительный принимаемый поток является отдельным от принимаемого потока, и

при этом декодер сконфигурирован с возможностью обрабатывать первичные мультимедийные данные, представленные посредством дополнительного принимаемого потока, с использованием метаданных или управляющих данных, представленных посредством потока битов.

24. Декодер (50) по п. 21, при этом анализатор (60) опорных шаблонов сконфигурирован с возможностью определять амплитуду (41, 42) опорного шаблона (135) путем усреднения центральных четырех выборок PCM-аудиосигнала в течение периода (41) импульсов и в течение периода (42) импульсов в опорном шаблоне (135);

причем декодер дополнительно содержит процессор (70) сигналов для обработки первичных мультимедийных данных (90, 90a, 90b) согласно кодированным вторичным мультимедийным данным (55), чтобы получать декодированный мультимедийный сигнал (85).

25. Декодер (50) по п. 21, в котором анализатор (60) опорных шаблонов содержит:

- модуль (32) определения моментов времени, сконфигурированный с возможностью определять предварительно заданный момент времени первичных мультимедийных данных в опорном шаблоне с точки зрения выборок частоты дискретизации;

- модуль (33) повышающей дискретизации, сконфигурированный с возможностью повышающе дискретизировать диапазон вокруг определенного момента времени, чтобы определять точную позицию предварительно определенного момента времени;

- дискретизирующий модуль (34) накопления, сконфигурированный с возможностью определять точную позицию цифровых слов в потоке цифровых слов, чтобы получать фактическую частоту дискретизации, ассоциированную с цифровыми словами, отличающуюся от предварительно определенной частоты дискретизации.

26. Декодер (50) по п. 21, в котором анализатор (60) опорных шаблонов содержит модуль (94) вычисления коэффициентов усиления, чтобы вычислять коэффициент усиления или ослабления согласно амплитуде опорного шаблона и амплитуде вычисленного опорного шаблона, при этом манипулятор (65) сигналов содержит умножитель (27), сконфигурированный с возможностью усиливать или ослаблять слова данных согласно коэффициенту усиления или ослабления, чтобы получать слова данных с компенсацией усиления.

27. Декодер (50) по п. 21,

в котором анализатор (60) опорных шаблонов содержит амплитудный детектор, чтобы определять амплитуду опорного шаблона и дополнительную амплитуду опорного шаблона;

при этом анализатор (60) опорных шаблонов дополнительно содержит модуль (96) компенсации смещения, сконфигурированный с возможностью вычислять смещение (96a) кодированных вторичных мультимедийных данных согласно уходу амплитуды опорного шаблона (135) и дополнительной амплитуды опорного шаблона, при этом манипулятор (65) сигналов содержит сумматор, сконфигурированный с возможностью суммировать смещение кодированных вторичных мультимедийных данных с кодированными вторичными мультимедийными данными для того, чтобы получать кодированные вторичные мультимедийные данные (96) с компенсацией смещения.

28. Декодер (50) по п. 21,

в котором манипулятор (65) сигналов содержит модуль (29) обратного преобразования, сконфигурированный с возможностью обратно преобразовывать вторичные мультимедийные данные, содержащие первое число битов, из слов (140) данных, содержащих второе число битов, превышающее первое число битов; или

в котором манипулятор (65) сигналов содержит модуль (31) разгруппировки, сконфигурированный с возможностью разгруппировывать группу вторичных мультимедийных данных, содержащих первое число битов, чтобы получать поток битов декодированных вторичных мультимедийных данных.

29. Машиночитаемый носитель, имеющий сохраненный на нем мультимедийный сигнал (155), содержащий:

поток (145) цифровых слов (142), представляющих кодированные вторичные мультимедийные данные (55), содержащие метаданные или управляющие данные для первичных мультимедийных данных (90, 90a, 90b), и опорный шаблон (135), указывающий опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных;

причем поток цифровых слов содержит импульсы данных (15’), содержащие подвергнутые фильтрации нижних частот слова (140) данных и опорный шаблон (135), подвергнутый фильтрации нижних частот фильтром (15) формирования импульсов, причем импульсы (15') данных содержат длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом амплитуда импульса (15') данных взвешивается согласно слову (140) данных или опорному шаблону (135), при этом фильтр (15) формирования импульсов сконфигурирован с возможностью суммировать последовательные взвешенные импульсы данных в моменты предварительно определенной частоты дискретизации, с тем чтобы получать поток (145) цифровых слов (142).

30. Машиночитаемый носитель по п. 29, в котором цифровые слова (142) содержат подвергнутые формированию импульсов и фильтрации нижних частот вторичные мультимедийные данные.

31. Машиночитаемый носитель по п. 29, в котором вторичные мультимедийные данные содержат опорный шаблон (135) и множество слов (140) данных.

32. Машиночитаемый носитель по п. 29, в котором вторичные мультимедийные данные преобразуются в слова (140) данных с зазором до старшего бита слова данных или младшего бита слова данных.

33. Машиночитаемый носитель по п. 29, в котором опорный шаблон содержит опорную амплитуду кодированных вторичных мультимедийных данных и предварительно определенный момент времени в первичных мультимедийных данных, при этом множество слов (140) данных содержат вторичные мультимедийные данные.

34. Машиночитаемый носитель по п. 29, в котором мультимедийный сигнал содержит дополнительный поток первичных мультимедийных данных, при этом первичные мультимедийные данные содержат аудиоданные или видеоданные, при этом дополнительный поток, содержащий первичные мультимедийные данные, совмещается с потоком кодированных вторичных мультимедийных данных (55) в предварительно определенный момент времени в первичных мультимедийных данных.

35. Способ (1100) для декодирования мультимедийного сигнала (155), содержащего принимаемый поток (145) цифровых слов (142), представляющих кодированные вторичные мультимедийные данные (55), содержащие метаданные или управляющие данные для первичных мультимедийных данных (90, 90a, 90b), и опорный шаблон(135), указывающий опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных, при этом способ содержит этапы, на которых:

- восстанавливают вторичные мультимедийные данные (80, 125), при этом восстановление содержит этапы, на которых:

- анализируют опорный шаблон (135), чтобы вычислять и компенсировать усиление, или ослабление, или смещение постоянного тока, применяемое к потоку (145) цифровых слов (142), или

- преобразуют частоту дискретизации, ассоциированную с цифровыми словами (142), согласно предварительно определенному моменту времени первичных мультимедийных данных, указываемых в опорном шаблоне (135), в предварительно определенную частоту дискретизации, с тем, чтобы получать восстановленные вторичные мультимедийные данные (80, 125); и

- извлекают поток (125') битов из восстановленных вторичных мультимедийных данных (80, 125).

36. Способ (1200) для кодирования вторичных мультимедийных данных (80, 125), содержащих метаданные или управляющие данные для первичных мультимедийных данных (90, 90a, 90b), при этом способ содержит этапы, на которых:

- группируют поток битов вторичных мультимедийных данных (125), чтобы формировать сгруппированные вторичные мультимедийные данные (130), представляющие слова данных;

- формируют опорный шаблон (135), указывающий опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных;

- подвергают фильтрации нижних частот слова (140) данных или опорный шаблон (135) с использованием фильтра (15) формирования импульсов, чтобы получать импульсы (15') данных, содержащие длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом амплитуда импульса (15') данных взвешивается согласно словам (142) данных и опорному шаблону (135), и при этом фильтр (15) формирования импульсов сконфигурирован с возможностью суммировать последовательные взвешенные импульсы данных в моменты предварительно определенной частоты дискретизации, с тем чтобы получать поток (145) цифровых слов (142), и

- выводят кодированные вторичные мультимедийные данные в качестве потока (145) цифровых слов (142).

37. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу, имеющую программный код для осуществления способа по п. 35, когда компьютерная программа работает на компьютере.

38. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу, имеющую программный код для осуществления способа по п. 36, когда компьютерная программа работает на компьютере.

39. Система обработки данных, содержащая:

- кодер по п. 1; и

- декодер по п. 21.

40. Система обработки данных по п. 39, дополнительно содержащая

манипулятор сигналов для манипулирования потоком (145) цифровых слов (142), чтобы получать манипулируемый поток цифровых слов,

при этом декодер сконфигурирован с возможностью восстанавливать результирующий поток цифровых слов из манипулируемого потока цифровых слов.

41. Система обработки данных по п. 40, в которой манипулятор (65) сигналов сконфигурирован с возможностью манипулировать посредством усиления амплитуды или ослабления амплитуды, либо введения смещения или варьирования смещения, либо частотно-избирательного ослабления или усиления, либо повторной дискретизации, и

при этом декодер (50) сконфигурирован с возможностью восстанавливать поток цифровых слов, манипулируемых посредством усиления амплитуды или ослабления амплитуды, либо введения смещения или варьирования смещения, либо частотно-избирательного ослабления или усиления, либо повторной дискретизации.

42. Система обработки данных по п. 40, в которой манипулятор (65) сигналов сконфигурирован с возможностью принимать PCM-аудиоканал и выводить PCM-аудиоканал,

при этом кодер сконфигурирован с возможностью выводить сигнал, допускающий передачу по PCM-аудиоканалу, и

при этом декодер сконфигурирован с возможностью принимать принимаемый поток из PCM-аудиоканала.



 

Похожие патенты:

Изобретение относится к кодеру и машиночитаемому носителю для обработки изображений. Технический результат заключается в повышении эффективности предсказания движения движущихся изображений.

Изобретение относится к области технологий взаимодействия «человек-машина» и, в частности, к устройству для воспроизведения видеоконтента с любого местоположения и с любого времени.

Изобретение относится к области предобработки и кодирования пикселей в картинке. Технический результат заключается в обеспечении предобработки пикселей для подавления артефактов.

Изобретение относится к вычислительной технике. Технический результат заключается в снижении объема передаваемых служебных данных.

Изобретение относится к области декодирования изображений. Технический результат - повышение эффективности декодирования изображений.

Изобретение относится к области кодирования изображений. Технический результат - повышение эффективности кодирования изображений.

Изобретение относится к вычислительной технике. Технический результат заключается в ускорении кодирования при использовании режима внутреннего копирования для текущего изображения.

Изобретение относится к вычислительной технике. Технический результат заключается в сокращении объема данных и количества занятых битов при кодировании и декодировании.

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении эффективности и точности предсказания текущих блоков видео.

Изобретение относится к средствам для обработки сигналов. Технический результат заключается в повышении эффективности обработки сигнала за счет уменьшения динамического диапазона информации об усилении, предоставленной кодеру.

Изобретение относится к средствам для обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам передискретизации сигнала звуковой частоты при кодировании или декодировании сигнала звуковой частоты. Технический результат заключается в повышении эффективности передискретизации.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в сокращении количества битов, необходимых для кодирования спектра, при сохранении качества звука.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к области декодирования аудиоинформации. Технический результат – обеспечение улучшенного маскирования ошибки аудиоинформации.

Изобретение относится к средствам для кодирования и декодирования. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов.

Изобретение относится к средствам для обработки кодированного аудиосигнала, включающего в себя множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами объектов.

Изобретение относится к средствам кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудио.

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении обработки мультимедийного сигнала, содержащего метаданные или управляющие данные. Кодер для кодирования вторичных мультимедийных данных, содержащих метаданные или управляющие данные для первичных мультимедийных данных, содержит модуль группировки для группировки потока битов вторичных мультимедийных данных, чтобы формировать сгруппированные вторичные мультимедийные данные, представляющие слова данных; формирователь опорных сигналов для формирования опорного шаблона, указывающего опорную амплитуду или предварительно определенный момент времени в первичных мультимедийных данных; и компоновщик потоков, содержащий фильтр формирования импульсов, чтобы подвергать фильтрации нижних частот слова данных или опорный шаблон, чтобы получать импульсы данных, содержащие длину более чем в одну выборку предварительно определенной частоты дискретизации, при этом кодер сконфигурирован с возможностью выводить поток цифровых слов в качестве вторичных мультимедийных данных. 8 н. и 34 з.п. ф-лы, 27 ил.

Наверх