Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций



Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций

 


Владельцы патента RU 2495503:

ПАНАСОНИК КОРПОРЭЙШН (JP)

Изобретение относится к устройству, которое реализует кодирование и декодирование с уменьшенной задержкой, используя методику многоканального кодирования и декодирования звука соответственно. Устройство кодирования звука включает в себя: модуль формирования сигнала понижающего микширования (410), который формирует во временной области первый сигнал понижающего микширования, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала, из входного многоканального звукового сигнала; модуль кодирования сигнала понижающего микширования (404), который кодирует первый сигнал понижающего микширования; первый модуль преобразования t-f (401), который преобразует входной многоканальный звуковой сигнал в многоканальный звуковой сигнал частотной области; и модуль вычисления пространственной информации (409), который формирует пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования. Технический результат - обеспечивает передачу и прием сигнала с более высоким качеством и меньшей задержкой и меньшей скоростью битового потока. 8 н. и 9 з.п. ф-лы, 9 ил.

 

[Область техники]

Настоящее изобретение относится к устройству, которое реализует кодирование и декодирование с уменьшенной задержкой, используя методику многоканального кодирования звука и методику многоканального декодирования звука соответственно. Настоящее изобретение применимо, например, к системе домашнего кинотеатра, стереосистеме автомобиля, системе электронных игр, системе проведения телеконференций и сотовому телефону.

[Предшествующий уровень техники]

Стандарты для кодирования многоканальных звуковых сигналов включают в себя стандарт Dolby digital и стандарт Экспертной группы по движущимся изображениям-Перспективного звукового кодирования (MPEG-AAC). Эти стандарты кодирования реализуют передачу многоканальных звуковых сигналов в основном с помощью кодирования в отдельности звукового сигнала каждого канала в многоканальных звуковых сигналах. Эти стандарты кодирования называются дискретным многоканальным кодированием, и дискретное многоканальное кодирование дает возможность кодирования сигналов для каналов 5.1 практически со скоростью битового потока около 384 Кбит/с в качестве нижнего предела.

С другой стороны, Пространственное кодирование звука (SAC) используется для кодирования и передачи многоканальных звуковых сигналов совершенно другим способом. Примером SAC является стандарт MPEG Surround. Как описано в NPL 1, стандарт MPEG Surround предназначен для (i) понижающего микширования многоканального звукового сигнала в один из: 1-канальный звуковой сигнал и 2-канальный звуковой сигнал, (ii) кодирования результирующего сигнала понижающего микширования, который является одним из: 1-канальный звуковой сигнал и 2-канальный звуковой сигнал, используя, например, стандарт MPEG-AAC (NPL 2) и стандарт AAC Высокой эффективности (HE-AAC, NPL 3) для формирования кодированного потока понижающего микширования, и (iii) добавления пространственной информации (пространственных меток), одновременно сформированной из сигнала каждого канала, в кодированный поток понижающего микширования.

Пространственная информация включает в себя информацию о разделении каналов, которая разделяет сигнал понижающего микширования на сигналы, включенные в многоканальный звуковой сигнал. Информация о разделении является информацией, указывающей соотношения между сигналами понижающего микширования и сигналами каналов, которые являются источниками сигналов понижающего микширования, например значения корреляции, отношения мощностей и разности между их фазами. Устройства декодирования звука декодируют кодированные смешанные сигналы, используя пространственную информацию, и формируют многоканальные звуковые сигналы из сигналов понижающего микширования и пространственной информации, которые декодируются. Таким образом могут передаваться многоканальные звуковые сигналы.

Поскольку пространственная информация, которую нужно использовать в стандарте MPEG Surround, имеет небольшой объем данных, то минимизируется увеличение информации в одном из 1-канального кодированного потока понижающего микширования и 2-канального кодированного потока понижающего микширования. Таким образом, поскольку многоканальные звуковые сигналы могут кодироваться с использованием информации, имеющей такой же объем данных, как и у одного из 1-канального звукового сигнала и 2-канального звукового сигнала, в соответствии со стандартом MPEG Surround, многоканальные звуковые сигналы могут передаваться с меньшей скоростью битового потока по сравнению с таковой у стандарта MPEG-AAC и стандарта Dolby digital.

Например, система связи с реалистичными ощущениями существует в виде полезного применения стандарта кодирования для кодирования сигналов с высококачественным звуком на низкой скорости битового потока. Как правило, два или более узла взаимосвязаны посредством двусторонней связи в системе связи с реалистичными ощущениями. Тогда кодированные данные взаимно передаются и принимаются между узлами. Устройство кодирования звука и устройство декодирования звука в каждом из узлов кодирует и декодирует переданные и принятые данные соответственно.

Фиг.7 иллюстрирует конфигурацию традиционной многоузловой системы проведения телеконференций, которая показывает пример кодирования и декодирования звуковых сигналов, когда телеконференция проводится на 3 узлах.

На фиг.7 каждый из узлов (узлы с 1 по 3) включает в себя устройство кодирования звука и устройство декодирования звука, и двусторонняя связь реализуется путем обмена звуковыми сигналами по каналам связи, имеющим заранее определенную ширину.

Другими словами, узел 1 включает в себя микрофон 101, устройство 102 многоканального кодирования, устройство 103 многоканального декодирования, которое реагирует на узел 2, устройство 104 многоканального декодирования, которое реагирует на узел 3, устройство 105 визуализации, динамик 106 и эхокомпенсатор 107. Узел 2 включает в себя устройство 110 многоканального декодирования, которое реагирует на узел 1, устройство 111 многоканального декодирования, которое реагирует на 3, устройство 112 представления, динамик 113, эхокомпенсатор 114, микрофон 108 и устройство 109 многоканального кодирования. Узел 3 включает в себя микрофон 115, устройство 116 многоканального кодирования, устройство 117 многоканального декодирования, которое реагирует на узел 2, устройство 118 многоканального декодирования, которое реагирует на узел 1, устройство 119 представления, динамик 120 и эхокомпенсатор 121.

Существует много случаев, где составляющие элементы в каждом узле включают в себя эхокомпенсатор для подавления эха, возникающего в общении посредством системы проведения телеконференций. Кроме того, когда составляющие элементы в каждом узле могут передавать и принимать многоканальные звуковые сигналы, существуют случаи, где каждый узел включает в себя устройство представления, использующее Функцию передачи, учитывающую строение головы (HRTF), чтобы многоканальные звуковые сигналы могли быть ориентированы в различных направлениях.

Например, микрофон 101 улавливает звуковой сигнал, а устройство 102 многоканального кодирования кодирует звуковой сигнал с заранее определенной скоростью битового потока на узле 1. В результате кодированный звуковой сигнал преобразуется в битовый поток bs1, и битовый поток bs1 передается узлам 2 и 3. Устройство 110 многоканального декодирования для декодирования многоканального звукового сигнала декодирует переданный битовый поток bs1 в многоканальный звуковой сигнал. Устройство 112 представления представляет декодированный многоканальный звуковой сигнал. Динамик 113 воспроизводит представленный многоканальный звуковой сигнал.

Аналогичным образом, на узле 3 устройство 118 многоканального декодирования декодирует кодированный многоканальный звуковой сигнал, устройство 119 представления представляет декодированный многоканальный звуковой сигнал, и динамик 120 воспроизводит представленный многоканальный звуковой сигнал.

Хотя узел 1 является отправителем, а узлы 2 и 3 являются получателями в вышеупомянутом описании, существуют случаи, где (i) узел 2 может быть отправителем, а узлы 1 и 3 могут быть получателями, и (ii) узел 3 может быть отправителем, а узлы 1 и 2 могут быть получателями. Эти процессы все время параллельно повторяются, и поэтому работает система связи с реалистичными ощущениями.

Основная цель системы связи с реалистичными ощущениями - представить общение с реалистичными ощущениями. Таким образом, любой из 2 узлов, которые взаимосвязаны друг с другом, должен уменьшить неудобные ощущения от двусторонней связи. Более того, другая проблема в том, что двусторонняя связь является дорогостоящей.

Выполнение двусторонней связи с менее неудобными ощущениями и с меньшей стоимостью должно удовлетворять некоторым требованиям. Требования для стандарта кодирования, в котором кодируется звуковой сигнал, включают в себя (1) более короткий период времени для кодирования звукового сигнала с помощью устройства кодирования звука и для декодирования звукового сигнала с помощью устройства декодирования звука, то есть меньшая задержка алгоритма по стандарту кодирования, (2) разрешение передачи звукового сигнала с меньшей скоростью битового потока и (3) соответствие более высокому качеству звука.

Поскольку звук очень ухудшается в соответствии с уменьшением скорости битового потока в соответствии, например, со стандартом MPEG-AAC и стандартом Dolby digital, трудность заключается в поддержании качества звука достаточно высоким, чтобы передавать реалистичные ощущения и обеспечивать меньшую стоимость связи. В отличие от этого, стандарт SAC, включающий в себя стандарт MPEG Surround, дает возможность уменьшения скорости битового потока передачи наряду с сохранением качества звука. Таким образом, стандарт SAC является стандартом кодирования, относительно подходящим для достижения системы связи с реалистичными ощущениями с меньшей стоимостью связи.

В частности, основная идея стандарта MPEG Surround, который является лучшим по качеству звука и который принадлежит к стандарту SAC, состоит в том, что пространственная информация входного сигнала представляется параметрами с меньшим объемом информации, и многоканальный звуковой сигнал синтезируется с помощью параметров и сигнала понижающего микширования, который претерпел понижающее микширование в один из 1-канального звукового сигнала и 2-канального звукового сигнала, и передается. Сокращение количества каналов звукового сигнала, который нужно передать, может уменьшить скорость битового потока в соответствии со стандартом SAC, что удовлетворяет требованию (2), которое важно в системе связи с реалистичными ощущениями, то есть разрешение передачи звукового сигнала с меньшей скоростью битового потока. По сравнению с традиционным стандартом многоканального кодирования, например стандартом MPEG-AAC и стандартом Dolby digital, стандарт SAC дает возможность передачи сигнала с более высоким качеством звука на очень низкой скорости битового потока, в частности, 192 Кбит/с в каналах 5.1, например.

Таким образом, стандарт SAC является полезным средством для системы связи с реалистичными ощущениями.

[Список ссылок]

[Непатентная литература]

[NPL 1]

ISO/IEC-23003-1

[NPL 2]

ISO/IEC-13818-3

[NPL 3]

ISO/IEC-14496-3:2005

[NPL 4]

ISO/IEC-14496-3:2005/Amd 1:2007

[Сущность изобретения]

[Техническая проблема]

В действительности, стандарт SAC обладает значительной проблемой, чтобы применяться к системе связи с реалистичными ощущениями. Проблема в том, что величина задержки кодирования в соответствии со стандартом SAC становится значительно больше по сравнению с традиционным дискретным многоканальным кодированием, например стандартом MPEG-AAC и стандартом Dolby digital. Чтобы решить проблему увеличенной задержки кодирования в соответствии с MPEG-AAC, например, стандарт MPEG-AAC-Малая задержка (LD) стандартизован в качестве методики уменьшения этой величины (NPL 4).

Когда частота дискретизации равна 48 кГц, устройство кодирования звука кодирует звуковой сигнал с задержкой приблизительно в 42 миллисекунды при кодировании, а устройство декодирования звука декодирует звуковой сигнал с задержкой приблизительно в 21 миллисекунду при декодировании, в соответствии с общим стандартом MPEG-AAC. В отличие от этого, в соответствии со стандартом MPEG-AAC-LD звуковой сигнал может быть обработан с величиной задержки кодирования в половину от таковой в общем стандарте MPEG-AAC. Система связи с реалистичными ощущениями, которая применяет стандарт MPEG-AAC-LD, может беспрепятственно осуществлять связь с собеседником из-за небольшой величины задержки кодирования. Однако стандарт MPEG-AAC-LD, допускающий меньшую задержку кодирования, является методикой многоканального кодирования исключительно на основе стандарта MPEG-AAC. Таким образом, он не может ни эффективно уменьшить скорость битового потока, ни удовлетворить требования меньшей скорости битового потока, более высокого качества звука и меньшей задержки кодирования, как по стандарту MPEG-AAC.

Другими словами, традиционное дискретное многоканальное кодирование, например стандарт MPEG-AAC-LD и стандарт Dolby digital, испытывает трудность в кодировании сигналов с меньшей скоростью битового потока, более высоким качеством звука и меньшей задержкой кодирования.

Фиг.8 иллюстрирует анализ величины задержки кодирования в соответствии со стандартом MPEG Surround, который является типичным представителем стандарта SAC. NPL 1 описывает подробности стандарта MPEG Surround.

Как проиллюстрировано на фиг.8, устройство SAC-кодирования (кодер SAC) включает в себя модуль 201 преобразования t-f, модуль 202 анализа SAC, модуль 204 преобразования f-t, модуль кодирования сигнала понижающего микширования 205 и устройство 207 мультиплексирования. Модуль 202 анализа SAC включает в себя модуль 203 понижающего микширования и модуль 206 вычисления пространственной информации.

Устройство SAC-декодирования (декодер SAC) включает в себя устройство 208 демультиплексирования, модуль 209 декодирования сигнала понижающего микширования, модуль 210 преобразования t-f, модуль 211 синтеза SAC и модуль 212 преобразования f-t.

На фиг.8 модуль 201 преобразования t-f преобразует многоканальный звуковой сигнал в сигнал частотной области в устройстве SAC-кодирования. Существуют случаи, где модуль 201 преобразования t-f преобразует многоканальный звуковой сигнал в сигнал только частотной области с использованием, например, конечного преобразования Фурье (FFT) и модифицированного дискретного косинусного преобразования (MDCT), и преобразует многоканальный звуковой сигнал в сигнал составной частотной области с использованием, например, гребенки квадратурных зеркальных фильтров (QMF).

Многоканальный звуковой сигнал, преобразованный в один в частотной области, подключается к 2 трактам в модуле 202 анализа SAC. Один из трактов подключается к модулю 203 понижающего микширования, который формирует промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала. Другой из трактов подключается к модулю 206 вычисления пространственной информации, который извлекает и квантует пространственную информацию. Во многих случаях пространственная информация обычно формируется с использованием, например, разностей уровней, отношений мощностей, корреляций и связностей между каналами каждого входного многоканального звукового сигнала.

После того как модуль 206 вычисления пространственной информации извлекает и квантует пространственную информацию, модуль 204 преобразования f-t снова преобразует промежуточный сигнал понижающего микширования IDMX в сигнал временной области.

Модуль 205 кодирования сигнала понижающего микширования кодирует сигнал понижающего микширования DMX, полученный с помощью модуля 204 преобразования f-t.

Стандарт кодирования для кодирования сигнала понижающего микширования DMX является стандартом для кодирования одного из 1-канального звукового сигнала и 2-канального звукового сигнала. Стандарт может быть стандартом сжатия с потерями, например стандартом MPEG Audio Layer-3 (MP3), MPEG-AAC, стандартом адаптивного акустического кодирования с преобразованием (ATRAC), стандартом Dolby digital и стандартом Windows Media Audio (WMA), а может быть стандартом сжатия без потерь, например стандартом MPEG4-Audio Lossless (ALS), стандартом сжатия без потерь с предсказанием (LPAC) и стандартом сжатия без потерь с преобразованием (LTAC). Кроме того, стандарт кодирования может быть стандартом сжатия, который специализируется в области сжатия речи, например голосовой аудиокодек для Интернета (iSAC), кодек с низкой скоростью битового потока для Интернета (iLBC) и линейное предсказание с алгебраическим кодовым возбуждением (ACELP).

Устройство 207 мультиплексирования является мультиплексором, включающим механизм для предоставления одиночного сигнала из двух или более входов. Устройство 207 мультиплексирования мультиплексирует кодированный сигнал понижающего микширования DMX и пространственную информацию и передает кодированный битовый поток устройству декодирования звука.

Устройство декодирования звука принимает кодированный битовый поток, сформированный устройством 207 мультиплексирования. Устройство 208 демультиплексирования демультиплексирует принятый битовый поток. Здесь устройство 208 демультиплексирования является демультиплексором, который предоставляет сигналы из одиночного входного сигнала, и является разделяющим модулем, который разделяет одиночный входной сигнал на сигналы.

Затем модуль 209 декодирования сигнала понижающего микширования декодирует кодированный сигнал понижающего микширования, включенный в битовый поток сигналов, в один из 1-канального звукового сигнала и 2-канального звукового сигнала.

Модуль 210 преобразования t-f преобразует декодированный сигнал в сигнал частотной области.

Модуль 211 синтеза SAC синтезирует многоканальный звуковой сигнал с помощью пространственной информации, разделенной устройством 208 демультиплексирования, и декодированного сигнала частотной области.

Модуль 212 преобразования f-t преобразует результирующий сигнал частотной области в сигнал временной области, чтобы в результате сформировать многоканальный звуковой сигнал временной области.

Учитывая конфигурацию SAC, описанную выше, величины задержек алгоритма, сформированные составляющими элементами на фиг.8 в соответствии со стандартом кодирования SAC, могут быть классифицированы на следующие 3 набора модулей.

(1) модуль 202 анализа SAC и модуль 211 синтеза SAC

(2) модуль 205 кодирования сигнала понижающего микширования и модуль 209 декодирования сигнала понижающего микширования

(3) модули преобразования t-f и модули преобразования f-t (201, 204, 210, 212)

Фиг.9 иллюстрирует величины задержек алгоритма в традиционной методике кодирования SAC. Каждая величина задержки алгоритма для удобства обозначается следующим образом.

Величины задержек в модуле 201 преобразования t-f и модуле 210 преобразования t-f соответственно обозначаются как D0, величина задержки в модуле 202 преобразования f-t обозначается как D1, величины задержек в модуле 204 преобразования f-t и модуле 212 преобразования f-t соответственно обозначаются как D2, величина задержки в модуле 205 кодирования сигнала понижающего микширования обозначается как D3, величина задержки в модуле 209 декодирования сигнала понижающего микширования обозначается как D4, и величина задержки в модуле 211 синтеза SAC обозначается как D5.

Как проиллюстрировано на фиг.9, общая величина задержки D путем объединения величин задержек устройства кодирования звука и устройства декодирования звука равна

D=2*D0+D1+2*D2+D3+D4+D5.

Задержка алгоритма из 2240 отсчетов возникает в устройстве кодирования звука и устройстве декодирования звука в соответствии со стандартом MPEG Surround, который является типичным примером стандарта кодирования SAC. Общая величина задержки алгоритма, включающая величину, возникающую в сигналах понижающего микширования из устройства кодирования звука и устройства декодирования звука, становится огромной. Задержка алгоритма, когда устройство кодирования понижающего микширования и устройство декодирования понижающего микширования применяют стандарт MPEG-AAC, равна приблизительно 80 миллисекундам. Однако, чтобы система связи с реалистичными ощущениями, которая обычно отдает предпочтение величине задержки, выполняла связь, не обращая внимания на величину задержки, величина задержки в каждом из устройства кодирования звука и устройства декодирования звука должна поддерживаться равной не более 40 миллисекундам.

Таким образом, существует важная проблема в том, что величина задержки значительно больше, когда к системе связи с реалистичными ощущениями применяется стандарт кодирования SAC и другие, которые требуют меньшей скорости битового потока, более высокого качества звука и меньшей задержки кодирования.

Таким образом, цель настоящего изобретения - предоставить устройство кодирования звука и устройство декодирования звука, которые могут уменьшить задержку алгоритма, возникающую в традиционном устройстве кодирования и традиционном устройстве декодирования для обработки многоканального звукового сигнала.

[Решение проблемы]

Чтобы решить проблемы, устройство кодирования звука в соответствии с аспектом настоящего изобретения является устройством кодирования звука, которое кодирует входной многоканальный звуковой сигнал, причем устройство включает в себя: модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем осуществления понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала; модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования; первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; и модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f, и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования.

С помощью этой конфигурации устройство кодирования звука может выполнять процесс понижающего микширования и кодирования многоканального звукового сигнала без ожидания завершения процесса формирования пространственной информации из многоканального звукового сигнала. Другими словами, процессы могут выполняться параллельно. Таким образом, задержка алгоритма в устройстве кодирования звука может быть уменьшена.

Кроме того, устройство кодирования звука может дополнительно включать в себя: второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области; модуль понижающего микширования, сконфигурированный с возможностью понижающего микширования многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f; и схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования, и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области.

С помощью этой конфигурации информация о компенсации понижающего микширования может формироваться для регулирования сигнала понижающего микширования, сформированного без ожидания завершения процесса формирования пространственной информации. Кроме того, устройство декодирования звука может формировать многоканальный звуковой сигнал с более высоким качеством звука, используя сформированную информацию о компенсации понижающего микширования.

Кроме того, устройство кодирования звука дополнительно может включать в себя устройство мультиплексирования, сконфигурированное с возможностью сохранения информации о компенсации понижающего микширования и пространственной информации в одном и том же кодированном потоке.

Эта конфигурация позволяет поддерживать совместимость с традиционным устройством кодирования звука и традиционным устройством декодирования звука.

Кроме того, схема компенсации понижающего микширования может вычислять отношение мощностей между сигналами в качестве информации о компенсации понижающего микширования.

С помощью этой конфигурации устройство декодирования звука, которое принимает сигнал понижающего микширования и информацию о компенсации понижающего микширования от устройства кодирования звука в соответствии с аспектом настоящего изобретения, может регулировать сигнал понижающего микширования с использованием отношения мощностей, которое является информацией о компенсации понижающего микширования.

Кроме того, схема компенсации понижающего микширования может вычислять разность между сигналами в качестве информации о компенсации понижающего микширования.

С помощью этой конфигурации устройство декодирования звука, которое принимает сигнал понижающего микширования и информацию о компенсации понижающего микширования от устройства кодирования звука в соответствии с аспектом настоящего изобретения, может регулировать сигнал понижающего микширования с использованием разности, которая является информацией о компенсации понижающего микширования.

Кроме того, схема компенсации понижающего микширования может вычислять коэффициент предсказывающего фильтра в качестве информации о компенсации понижающего микширования.

С помощью этой конфигурации устройство декодирования звука, которое принимает сигнал понижающего микширования и информацию о компенсации понижающего микширования от устройства кодирования звука в соответствии с аспектом настоящего изобретения, может регулировать сигнал понижающего микширования с использованием коэффициента предсказывающего фильтра, которое является информацией о компенсации понижающего микширования.

Кроме того, устройство декодирования звука в соответствии с аспектом настоящего изобретения может быть устройством декодирования звука, которое декодирует принятый битовый поток в многоканальный звуковой сигнал, причем устройство включает в себя: разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования; схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области; модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.

Конфигурация позволяет формировать многоканальный звуковой сигнал с более высоким качеством звука из сигнала понижающего микширования, принятого от устройства кодирования звука, которое уменьшает задержку алгоритма.

Кроме того, устройство декодирования звука может дополнительно включать в себя: модуль понижающего микширования промежуточного декодирования, сконфигурированный с возможностью формирования сигнала понижающего микширования в частотной области путем деквантования кодированного сигнала понижающего микширования, включенного в информационную часть; и модуль преобразования областей, сконфигурированный с возможностью преобразования сигнала понижающего микширования, который формируется модулем понижающего микширования промежуточного декодирования и находится в частотной области, в сигнал понижающего микширования в частотной области, имеющий компонент в направлении оси времени, где схема регулирования понижающего микширования может регулировать сигнал понижающего микширования, полученный с помощью модуля преобразования областей, используя информацию о компенсации понижающего микширования, причем сигнал понижающего микширования находится в частотной области, имеющей компонент в направлении оси времени.

С помощью этой конфигурации процессы перед процессом формирования многоканального звукового сигнала выполняются в частотной области. Таким образом может быть уменьшена задержка в процессах.

Кроме того, схема регулирования понижающего микширования может получить отношение мощностей между сигналами в качестве информации о компенсации понижающего микширования и отрегулировать сигнал понижающего микширования путем умножения сигнала понижающего микширования на отношение мощностей.

С помощью этой конфигурации сигнал понижающего микширования, принятый устройством декодирования звука, регулируют до сигнала понижающего микширования, подходящего для формирования многоканального звукового сигнала с более высоким качеством звука, используя отношение мощностей, вычисленное устройством кодирования звука.

Кроме того, схема регулирования понижающего микширования может получить разность между сигналами в качестве информации о компенсации понижающего микширования и отрегулировать сигнал понижающего микширования путем прибавления разности к сигналу понижающего микширования.

С помощью этой конфигурации сигнал понижающего микширования, принятый устройством декодирования звука, регулируют до сигнала понижающего микширования, подходящего для формирования многоканального звукового сигнала с более высоким качеством звука, используя разность, вычисленную устройством кодирования звука.

Кроме того, схема регулирования понижающего микширования может получить коэффициент предсказывающего фильтра в качестве информации о компенсации понижающего микширования и отрегулировать сигнал понижающего микширования путем применения к сигналу понижающего микширования предсказывающего фильтра, используя коэффициент предсказывающего фильтра.

С помощью этой конфигурации сигнал понижающего микширования, принятый устройством декодирования звука, регулируют до сигнала понижающего микширования, подходящего для формирования многоканального звукового сигнала с более высоким качеством звука, используя коэффициент предсказывающего фильтра, вычисленный устройством кодирования звука.

Кроме того, устройство кодирования и декодирования звука в соответствии с аспектом настоящего изобретения может быть устройством кодирования и декодирования звука, включающим в себя (i) устройство кодирования звука, которое кодирует входной многоканальный звуковой сигнал; и (ii) устройство декодирования звука, которое декодирует принятый битовый поток сигналов в многоканальный звуковой сигнал, причем устройство кодирования звука включает в себя: модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала; модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования; первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f, и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования; второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области; модуль понижающего микширования, сконфигурированный с возможностью понижающего микширования многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f; и схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования, и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области, и причем устройство декодирования звука включает в себя: разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока сигналов на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования; схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области; модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.

С помощью этой конфигурации устройство кодирования и декодирования звука может использоваться в качестве устройства кодирования и декодирования звука, которое соответствует меньшей задержке, меньшей скорости битового потока и более высокому качеству звука.

Кроме того, система проведения телеконференций в соответствии с аспектом настоящего изобретения может быть системой проведения телеконференций, включающей в себя (i) устройство кодирования звука, которое кодирует входной многоканальный звуковой сигнал; и (ii) устройство декодирования звука, которое декодирует принятый битовый поток в многоканальный звуковой сигнал, причем устройство кодирования звука включает в себя: модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала; модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования; первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f, и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования; второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области; модуль понижающего микширования, сконфигурированный с возможностью понижающего микширования многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью первого модуля преобразования t-f; и схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования, и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области, и причем устройство декодирования звука включает в себя: разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока сигналов на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования; схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области; модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.

С помощью этой конфигурации система проведения телеконференций может использоваться в качестве системы проведения телеконференций, которая может реализовать бесперебойную связь.

Кроме того, способ кодирования звука в соответствии с аспектом настоящего изобретения может быть способом кодирования звука для кодирования входного многоканального звукового сигнала, включающим: формирование первого сигнала понижающего микширования путем понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала; кодирование первого сигнала понижающего микширования, сформированного при формировании первого сигнала понижающего микширования; преобразование входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; и формирование пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают при преобразовании, и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования.

С помощью этого способа может быть уменьшена задержка алгоритма, возникающая в процессе кодирования звукового сигнала.

Кроме того, способ декодирования звука в соответствии с аспектом настоящего изобретения может быть способом декодирования звука для декодирования принятого битового потока в многоканальный звуковой сигнал, причем способ включает в себя: разделение принятого битового потока на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования; регулирование сигнала понижающего микширования с использованием информации о компенсации понижающего микширования, включенной в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области; формирование многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного при регулировании, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и преобразование многоканального звукового сигнала, который формируется при формировании и находится в частотной области, в многоканальный звуковой сигнал временной области.

С помощью этого способа может формироваться многоканальный звуковой сигнал с более высоким качеством звука.

Кроме того, программа для устройства кодирования звука в соответствии с аспектом настоящего изобретения может быть программой для устройства кодирования звука, которое кодирует входной многоканальный звуковой сигнал, где программа может заставить компьютер выполнять способ кодирования звука.

Программа может использоваться в качестве программы для выполнения обработки по кодированию звука с меньшей задержкой.

Кроме того, программа для устройства декодирования звука может быть программой для устройства декодирования звука, которое декодирует принятый битовый поток в многоканальный звуковой сигнал, где программа может заставить компьютер выполнять способ декодирования звука.

Программа может использоваться в качестве программы для формирования многоканального звукового сигнала с более высоким качеством звука.

Как описано выше, настоящее изобретение может быть реализовано не только как такое устройство кодирования звука и устройство декодирования звука, но также в виде способа кодирования звука и способа декодирования звука, использующих характерные модули, включенные в устройство кодирования звука и устройство декодирования звука, соответственно в виде этапов. Кроме того, настоящее изобретение может быть реализовано в виде программы, заставляющей компьютер выполнять такие этапы. Кроме того, настоящее изобретение может быть реализовано в виде полупроводниковой интегральной схемы, например LSI, объединенной с характерными модулями, включенными в устройство кодирования звука и устройство декодирования звука. Очевидно, что такая программа может предоставляться носителями записи, например CD-ROM, и передающей среды, например Интернета.

[Полезный эффект изобретения]

Устройство кодирования звука и устройство декодирования звука в соответствии с настоящим изобретением могут уменьшить задержку алгоритма, возникающую в традиционном устройстве многоканального кодирования звука и традиционном устройстве многоканального декодирования звука, и поддерживать на высоких уровнях соотношение между скоростью битового потока и качеством звука, которое является компромиссным соотношением.

Другими словами, настоящее изобретение может гораздо больше уменьшить задержку алгоритма, чем с помощью традиционной методики многоканального кодирования звука, и поэтому обладает преимуществом разрешения построения, например, системы проведения телеконференций, которая обеспечивает связь в реальном масштабе времени, и системы связи, которая дает реалистичные ощущения, и в которой обязательна передача многоканального звукового сигнала с меньшей задержкой и высоким качеством звука.

Соответственно, настоящее изобретение позволяет передавать и принимать сигнал с более высоким качеством звука и меньшей задержкой с меньшей скоростью битового потока. Таким образом, настоящее изобретение очень подходит для практического использования в последнее время, когда мобильные устройства, например сотовые телефоны, предоставляют связь с реалистичными ощущениями, и аудиовизуальные устройства и системы проведения телеконференций широко распространили полноценную связь с реалистичными ощущениями. Данная заявка не ограничивается этими устройствами, и понятно, что настоящее изобретение эффективно для общей двусторонней связи, в которой обязательна меньшая величина задержки.

[Краткое описание чертежей]

Фиг.1 иллюстрирует конфигурацию устройства кодирования звука и величину задержки в каждом составляющем элементе в соответствии с вариантом осуществления настоящего изобретения.

Фиг.2 иллюстрирует структуру битового потока в соответствии с вариантом осуществления настоящего изобретения.

Фиг.3 иллюстрирует структуру другого битового потока в соответствии с вариантом осуществления настоящего изобретения.

Фиг.4 иллюстрирует конфигурацию устройства декодирования звука и величину задержки в каждом составляющем элементе в соответствии с вариантом осуществления настоящего изобретения.

Фиг.5 иллюстрирует наборы параметров в соответствии с вариантом осуществления в настоящем изобретении.

Фиг.6 иллюстрирует гибридную область в соответствии с вариантом осуществления в настоящем изобретении.

Фиг.7 иллюстрирует конфигурацию традиционной многоузловой системы проведения телеконференций.

Фиг.8 иллюстрирует конфигурацию традиционных устройств кодирования и декодирования звука.

Фиг.9 иллюстрирует конфигурацию традиционных устройств кодирования и декодирования звука.

[Описание вариантов осуществления]

Ниже будут описываться варианты осуществления в настоящем изобретении со ссылкой на чертежи.

[Вариант 1 осуществления]

Сначала будет описываться Вариант 1 осуществления в настоящем изобретении.

Фиг.1 иллюстрирует устройство кодирования звука в соответствии с Вариантом 1 осуществления в настоящем изобретении. Кроме того, величина задержки показана под каждым составляющим элементом на фиг.1. Величина задержки соответствует периоду времени между сохранением входных сигналов и выходных сигналов. Когда никакие многоканальные входные сигналы не сохраняются между вводом и выводом, величина задержки, которая является незначительной, обозначается в виде "0" на фиг.1.

Устройство кодирования звука на фиг.1 является устройством кодирования звука, которое кодирует многоканальный звуковой сигнал и включает в себя модуль 410 формирования сигнала понижающего микширования, модуль 404 кодирования сигнала понижающего микширования, первый модуль 401 преобразования t-f, модуль 402 анализа SAC, второй модуль 405 преобразования t-f, схему 406 компенсации понижающего микширования и устройство 407 мультиплексирования. Модуль 410 формирования сигнала понижающего микширования включает в себя схему 403 произвольного понижающего микширования. Модуль 402 анализа SAC включает в себя модуль 408 понижающего микширования и модуль 409 вычисления пространственной информации.

Схема 403 произвольного понижающего микширования осуществляет произвольное понижающее микширование входного многоканального звукового сигнала в один из 1-канального звукового сигнала и 2-канального звукового сигнала, чтобы сформировать сигнал произвольного понижающего микширования ADMX.

Модуль 404 кодирования сигнала понижающего микширования кодирует сигнал произвольного понижающего микширования ADMX, сформированный схемой 403 произвольного понижающего микширования.

Второй модуль 405 преобразования t-f преобразует сигнал произвольного понижающего микширования ADMX, сформированный схемой 403 произвольного понижающего микширования во временной области, в сигнал частотной области, чтобы сформировать промежуточный сигнал произвольного понижающего микширования IADMX частотной области.

Первый модуль 401 преобразования t-f преобразует входной многоканальный звуковой сигнал временной области в сигнал частотной области.

Модуль 408 понижающего микширования анализирует многоканальный звуковой сигнал частотной области, полученный с помощью первого модуля 401 преобразования t-f, чтобы сформировать промежуточный сигнал понижающего микширования IDMX в частотной области.

Модуль 409 вычисления пространственной информации формирует пространственную информацию путем анализа многоканального звукового сигнала, который получают с помощью первого модуля 401 преобразования t-f и находится в частотной области. Пространственная информация включает в себя информацию о разделении каналов, которая разделяет сигнал понижающего микширования на сигналы, включенные в многоканальный звуковой сигнал. Информация о разделении каналов является информацией, указывающей соотношения между сигналом понижающего микширования и многоканальным звуковым сигналом, например значения корреляции, и отношения мощностей, и разности между их фазами.

Схема 406 компенсации понижающего микширования сравнивает промежуточный сигнал произвольного понижающего микширования IADMX и промежуточный сигнал понижающего микширования IDMX, чтобы вычислить информацию о компенсации понижающего микширования (метки DMX).

Устройство 407 мультиплексирования является примером мультиплексора, включающего механизм для предоставления одиночного сигнала из двух или более входов. Устройство 407 мультиплексирования мультиплексирует в битовый поток сигналов сигнал произвольного понижающего микширования ADMX, кодированный с помощью модуля 404 кодирования сигнала понижающего микширования, пространственную информацию, вычисленную модулем 409 вычисления пространственной информации, и информацию о компенсации понижающего микширования, вычисленную схемой 406 компенсации понижающего микширования.

Как проиллюстрировано на фиг.1, входной многоканальный звуковой сигнал подается в 2 модуля. Одним из модулей является схема 403 произвольного понижающего микширования, а другим является первый модуль 401 преобразования t-f. Модуль 401 преобразования t-f, например, преобразует входной многоканальный звуковой сигнал в сигнал частотной области, используя уравнение 1.

[Уравнение 1]

S ( f ) = k = 0 N 1 s ( t ) cos ( π 2 N ( 2 k + 1 + N 2 ) ( 2 f + 1 ) )

Уравнение 1 является примером модифицированного дискретного косинусного преобразования (MDCT). s(t) представляет входной многоканальный звуковой сигнал временной области. S(f) представляет многоканальный звуковой сигнал частотной области. t представляет временную область. f представляет частотную область. N является количеством кадров.

Хотя MDCT показано в уравнении 1 в качестве примера уравнения, используемого первым модулем 401 преобразования t-f, настоящее изобретение не ограничивается уравнением 1. Существуют случаи, где сигнал преобразуется в сигнал только частотной области с использованием быстрого преобразования Фурье (FFT) и MDCT, и где сигнал преобразуется в составную частотную область, которая является другой частотной областью, имеющей компонент в направлении оси времени, используя, например, гребенку QMF. Таким образом, первый модуль 401 преобразования t-f фиксирует в кодированном потоке информацию, указывающую, какая область преобразования используется. Например, первый модуль 401 преобразования t-f сохраняет "01", представляющее составную частотную область, используя гребенку QMF, и "00", представляющее частотную область, используя MDCT, в соответствующих кодированных потоках.

Модуль 408 понижающего микширования в модуле 402 анализа SAC осуществляет понижающее микширование многоканального звукового сигнала, преобразованного в сигнал частотной области, в промежуточный сигнал понижающего микширования IDMX. Промежуточный сигнал понижающего микширования IDMX является одним из 1-канального звукового сигнала и 2-канального звукового сигнала и является сигналом частотной области.

[Уравнение 2]

S I D M X ( f ) = ( C L C R C C C L s C R s D L D R D C D L s D R s ) ( S L ( f ) S R ( f ) S C ( f ) S L s ( f ) S R s ( f ) )

Уравнение 2 является примером вычисления сигнала понижающего микширования. f в уравнении 2 представляет частотную область. SL(f), SR(f), SC(f), SLs(f) и SRs(f) представляют звуковые сигналы в каждом канале. SIDMX(f) представляет промежуточный сигнал понижающего микширования IDMX. CL, CR, CC, CLs, CRs, DL, DR, DC, DLs и DRs представляют коэффициенты понижающего микширования.

Здесь коэффициенты понижающего микширования, которые нужно использовать, соответствуют стандарту Международного союза электросвязи (ITU). Хотя коэффициент понижающего микширования в соответствии с ITU обычно используется для вычисления сигнала временной области, коэффициент понижающего микширования используется для преобразования сигнала частотной области в Варианте 1 осуществления, которое отличается от методики понижающего микширования в соответствии с общей рекомендацией ITU. Существуют случаи, где характеристики многоканального звукового сигнала могут менять коэффициент понижающего микширования.

Модуль 409 вычисления пространственной информации в модуле 402 анализа SAC вычисляет и квантует пространственную информацию одновременно с тем, когда модуль 408 понижающего микширования в модуле 402 анализа SAC осуществляет понижающее микширование сигнал. Пространственная информация используется, когда сигнал понижающего микширования разделяется на сигналы, включенные в многоканальный звуковой сигнал.

[Уравнение 3]

I L D n , m = S ( f ) n 2 S ( f ) m 2

Уравнение 3 вычисляет отношение мощностей между каналом n и каналом m в виде ILDn,m. Значения, назначенные n и m, включают в себя 1, соответствующую L-каналу, 2, соответствующую R-каналу, 3, соответствующую C-каналу, 4, соответствующую Ls-каналу, и 5, соответствующую Rs-каналу. Кроме того, S(f)n и S(f)m представляют звуковые сигналы в каждом канале.

Аналогичным образом, коэффициент корреляции между каналом n и каналом m вычисляют в виде ICCn,m, как выражено в уравнении 4.

[Уравнение 4]

I C C n , m = C o r r ( S ( f ) n , S ( f ) m )

Значения, назначенные n и m, включают в себя 1, соответствующую L-каналу, 2, соответствующую R-каналу, 3, соответствующую C-каналу, 4, соответствующую Ls-каналу, и 5, соответствующую Rs-каналу. Кроме того, S(f)n и S(f)m представляют звуковые сигналы в каждом канале. Кроме того, оператор Corr выражается уравнением 5.

[Уравнение 5]

C o r r ( x , y ) = i ( x i x ¯ ) ( y i y ¯ ) i ( x i x ¯ ) 2 * i ( y i y ¯ ) 2

xi и yi в уравнении 5 представляют соответственно каждый элемент, включенный в x и y, который должен вычисляться с использованием оператора Corr. Каждое из x и y с чертой указывает среднее значение элементов, включенных в x и y, которые должны вычисляться.

По существу, модуль 409 вычисления пространственной информации в модуле 402 анализа SAC вычисляет ILD и ICC между каналами, квантует ILD и ICC и устраняет их избыточности, используя, например, кодирование по способу Хаффмана по необходимости для формирования пространственной информации.

Устройство 407 мультиплексирования мультиплексирует пространственную информацию, сформированную модулем 409 вычисления пространственной информации, в битовый поток сигналов, который проиллюстрирован на фиг.2.

Фиг.2 иллюстрирует структуру битового потока сигналов в соответствии с Вариантом 1 осуществления настоящего изобретения. Устройство 407 мультиплексирования мультиплексирует кодированный сигнал произвольного понижающего микширования ADMX и пространственную информацию в битовый поток сигналов. Кроме того, пространственная информация включает в себя информацию SAC_Param, вычисленную модулем 409 вычисления пространственной информации, и информацию о компенсации понижающего микширования, вычисленную схемой 406 компенсации понижающего микширования. Включение информации о компенсации понижающего микширования в пространственную информацию может сохранить совместимость с традиционным устройством декодирования звука.

Кроме того, LD_flag (признак малой задержки) на фиг.2 является признаком, указывающим, кодируется ли сигнал по способу кодирования звука в соответствии с реализацией настоящего изобретения. Устройство 407 мультиплексирования в устройстве кодирования звука добавляет LD_flag, чтобы устройство декодирования звука могло легко определить, добавляется ли информация о компенсации понижающего микширования в сигнал. Кроме того, устройство декодирования звука может выполнять декодирование, которое приводит к меньшей задержке, пропуская добавленную информацию о компенсации понижающего микширования.

Хотя отношение мощностей и коэффициент корреляции между каналами входного многоканального звукового сигнала используются в качестве пространственной информации в Варианте 1 осуществления, настоящее изобретение этим не ограничивается, и пространственная информация может являться связностью между входными многоканальными звуковыми сигналами и разностью между абсолютными значениями.

Кроме того, NPL 1 описывает подробности применения стандарта MPEG Surround в качестве стандарта SAC. Коэффициент интерауральной корреляции (ICC) в NPL 1 соответствует информации о корреляции между каналами, тогда как интерауральная разность уровней (ILD) соответствует отношению мощностей между каналами. Интерауральная разность времен (ITD) на фиг.2 соответствует информации о временной разности между каналами.

Далее будут описываться функции схемы 403 произвольного понижающего микширования.

Схема 403 произвольного понижающего микширования осуществляет произвольное понижающее микширование многоканального звукового сигнала временной области для вычисления сигнала произвольного понижающего микширования ADMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области. Процессы понижающего микширования происходят в соответствии, например, с Рекомендацией BS.775-1 (непатентная литература 5).

[Уравнение 6]

S A D M X ( t ) = ( C L C R C C C L s C R s D L D R D C D L s D R s ) ( s ( t ) L s ( t ) R s ( t ) C s ( t ) L s s ( t ) R s )

Уравнение 6 является примером вычисления сигнала понижающего микширования. t в уравнении 6 представляет временную область. Кроме того, s(t)L, s(t)R, s(t)C, s(t)Ls и s(t)Rs представляют звуковые сигналы в каждом канале. SADMX(t) представляет сигнал произвольного понижающего микширования ADMX. CL, CR, CC, CLs, CRs, DL, DR, DC, DLs и DRs представляют коэффициенты понижающего микширования. В соответствии с реализацией настоящего изобретения устройство 407 мультиплексирования может передавать коэффициент понижающего микширования, назначенный каждому из устройств кодирования звука, как часть битового потока сигналов, что проиллюстрировано на фиг.3. Кроме того, при предоставлении наборов коэффициентов понижающего микширования устройство 407 мультиплексирования может мультиплексировать в битовый поток сигналов информацию для переключения между коэффициентами понижающего микширования и передать битовый поток сигналов.

Фиг.3 иллюстрирует структуру битового потока, который отличается от битового потока на фиг.2, в соответствии с Вариантом 1 осуществления настоящего изобретения. Битовый поток сигналов на фиг.3 является битовым потоком, в котором кодированный сигнал произвольного понижающего микширования ADMX и пространственная информация мультиплексируются, как битовый поток на фиг.2. Кроме того, пространственная информация включает в себя информацию SAC_Param, вычисленную модулем 409 вычисления пространственной информации, и информацию о компенсации понижающего микширования, вычисленную схемой 406 компенсации понижающего микширования. Битовый поток на фиг.3 дополнительно включает в себя информацию DMX_flag, указывающую информацию о коэффициенте понижающего микширования и шаблон коэффициента понижающего микширования.

Например, предоставляются 2 шаблона коэффициентов понижающего микширования. Один из шаблонов является коэффициентом в соответствии с рекомендацией ITU, а другой является коэффициентом, заданным пользователем. Устройство 407 мультиплексирования описывает 1 разряд дополнительной информации в битовом потоке и передает 1-разрядную информацию в виде "0" в соответствии с рекомендацией ITU. Когда коэффициент задается пользователем, устройство 407 мультиплексирования передает 1-разрядную информацию в виде "1" и сохраняет коэффициент, заданный пользователем, в положении после "1" в случае, где 1-разрядная информация представляется посредством "1". Например, когда сигнал произвольного понижающего микширования ADMX является монофоническим, битовый поток хранит длину коэффициента понижающего микширования (когда исходный сигнал является 5.1-канальным сигналом, устройство 407 мультиплексирования сохраняет "6"). Впоследствии фактический коэффициент понижающего микширования хранится в виде фиксированного количества разрядов. Когда исходный сигнал является 5.1-канальным сигналом и имеет ширину 16 разрядов, в битовом потоке описывается итоговый 96-разрядный коэффициент понижающего микширования. Когда сигнал произвольного понижающего микширования ADMX является стереофоническим, битовый поток хранит длину коэффициента понижающего микширования (когда исходный сигнал является 5.1-канальным сигналом, устройство 407 мультиплексирования сохраняет "12"). Впоследствии фактический коэффициент понижающего микширования хранится в виде фиксированного количества разрядов.

Коэффициент понижающего микширования может храниться в виде фиксированного количества разрядов и в виде переменного количества разрядов. В таком случае информация, указывающая длину разрядов, сохраненную для коэффициента понижающего микширования, сохраняется в битовом потоке.

Устройство декодирования звука хранит информацию о шаблоне коэффициентов понижающего микширования. Считывая лишь информацию о шаблоне, устройство декодирования звука может декодировать сигналы без избыточной обработки, например считывания самого коэффициента понижающего микширования. Отсутствие избыточной обработки дает преимущество декодирования с меньшим энергопотреблением.

Схема 403 произвольного понижающего микширования осуществляет понижающее микширование сигнала таким образом. Затем модуль 404 кодирования сигнала понижающего микширования кодирует сигнал произвольного понижающего микширования ADMX одного из 1-канального и 2-канального сигнала с заранее определенной скоростью битового потока и в соответствии с заранее определенным стандартом кодирования. Кроме того, устройство 407 мультиплексирования мультиплексирует кодированный сигнал в битовый поток и передает битовый поток устройству декодирования звука.

С другой стороны, второй модуль 405 преобразования t-f преобразует сигнал произвольного понижающего микширования ADMX в сигнал частотной области, чтобы сформировать промежуточный сигнал произвольного понижающего микширования IADMX.

[Уравнение 7]

S I A D M X ( f ) = k = 0 N 1 S A D M X ( t ) cos ( π 2 N ( 2 k + 1 + N 2 ) ( 2 f + 1 ) )

Уравнение 7 является примером MDCT для использования для преобразования сигнала в сигнал частотной области. t в уравнении 7 представляет временную область. f представляет частотную область. N является количеством кадров. SADMX(f) представляет сигнал произвольного понижающего микширования ADMX. SIADMX(f) представляет промежуточный сигнал произвольного понижающего микширования IADMX.

Преобразование, применяемое вторым модулем 405 преобразования t-f, может быть MDCT, выраженным в уравнении 7, FFT и гребенкой QMF.

Хотя второй модуль 405 преобразования t-f и первый модуль 401 преобразования t-f с готовностью выполняют одинаковый тип преобразования, разные типы преобразований могут использоваться, когда определяется, что кодирование и декодирование могут быть упрощены с использованием разных типов преобразований (например, сочетания FFT и гребенки QMF и сочетания FFT и MDCT). Устройство кодирования звука хранит в битовом потоке информацию, указывающую, являются ли преобразования t-f преобразованиями одинакового типа или разных типов, и информацию, какое преобразование используется, когда используются разные типы преобразований t-f. Устройство декодирования звука реализует декодирование на основе такой информации.

Модуль 404 кодирования сигнала понижающего микширования кодирует сигнал произвольного понижающего микширования ADMX. Стандарт MPEG-AAC, описанный в NPL 1, применяется в этом документе в качестве стандарта кодирования. Поскольку стандарт кодирования в модуле 404 кодирования сигнала понижающего микширования не ограничивается стандартом MPEG-AAC, то стандарт может быть стандартом кодирования с потерями, например стандартом MP3, и стандартом кодирования без потерь, например стандартом MPEG-ALS. Когда стандарт кодирования в модуле 404 кодирования сигнала понижающего микширования является стандартом MPEG-AAC, устройство кодирования звука имеет 2048 отсчетов в качестве величины задержки (устройство декодирования звука имеет 1024 отсчета).

Стандарт кодирования в модуле 404 кодирования сигнала понижающего микширования, в соответствии с реализацией настоящего изобретения, не имеет конкретного ограничения на скорость битового потока и является более подходящим для использования в качестве ортогонального преобразования, например MDCT и FFT.

SIADMX(f) и SIDMX(f), которые могут вычисляться параллельно, вычисляются параллельно. Таким образом, общая величина задержки в устройстве кодирования звука может быть уменьшена с D0+D1+D2+D3 до max (D0+D1, D3). В частности, устройство кодирования звука в соответствии с реализацией настоящего изобретения уменьшает общую величину задержки посредством кодирования понижающего микширования параллельно с анализом SAC.

Устройство декодирования звука в соответствии с реализацией настоящего изобретения может уменьшить количество обработки с преобразованием t-f перед тем, как модуль 505 синтеза SAC формирует многоканальный звуковой сигнал, и уменьшить величину задержки с D4+D0+D5+D2 до D5+D2 путем выполнения промежуточного декодирования понижающего микширования.

Далее будет описываться устройство декодирования звука.

Фиг.4 иллюстрирует пример устройства декодирования звука в соответствии с Вариантом 1 осуществления в настоящем изобретении. Кроме того, величина задержки показана под каждым составляющим элементом на фиг.4. Величина задержки соответствует периоду времени между сохранением входных сигналов и выходных сигналов, как показано на фиг.1. Кроме того, когда никакие многоканальные сигналы не сохраняются между вводом и выводом, величина задержки, которая является незначительной, обозначается в виде "0" на фиг.4, как показано на фиг.1.

Устройство декодирования звука на фиг.4 является устройством декодирования звука, которое декодирует принятый битовый поток в многоканальный звуковой сигнал.

Кроме того, устройство декодирования звука на фиг.4 включает в себя: устройство 501 демультиплексирования, которое разделяет принятый битовый поток на информационную часть и часть с параметрами; модуль 502 промежуточного декодирования сигнала понижающего микширования, который деквантует кодированный поток в информационной части и вычисляет сигнал частотной области; модуль 503 преобразования областей, который по необходимости преобразует вычисленный сигнал частотной области в другой сигнал частотной области; схему 504 регулирования понижающего микширования, которая регулирует сигнал, преобразованный в сигнал частотной области, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами; модуль 507 формирования многоканального сигнала, который формирует многоканальный звуковой сигнал из сигнала, отрегулированного схемой 504 регулирования понижающего микширования, и пространственной информации, включенной в часть с параметрами; и модуль 506 преобразования f-t, который преобразует сформированный многоканальный звуковой сигнал в сигнал временной области.

Кроме того, модуль 507 формирования многоканального сигнала включает в себя модуль 505 синтеза SAC, который формирует многоканальный звуковой сигнал в соответствии со стандартом SAC.

Устройство 501 демультиплексирования является примером демультиплексора, который предоставляет сигналы из одиночного входного сигнала, и является примером разделяющего модуля, который разделяет одиночный сигнал на сигналы. Устройство 501 демультиплексирования разделяет битовый поток, сформированный устройством кодирования звука, проиллюстрированным на фиг.1, на кодированный поток понижающего микширования и пространственную информацию.

Устройство 501 демультиплексирования разделяет битовый поток, используя информацию о длине (i) кодированного потока понижающего микширования и (ii) кодированного потока в пространственной информации. Здесь (i) и (ii) включены в битовый поток.

Модуль 502 промежуточного декодирования сигнала понижающего микширования формирует сигнал в частотной области путем деквантования кодированного потока понижающего микширования, разделенного устройством 501 демультиплексирования. Никакая схема задержки не присутствует в этих процессах, и соответственно не возникает никакой задержки. Модуль 502 промежуточного декодирования сигнала понижающего микширования вычисляет коэффициент в частотной области в соответствии со стандартом MPEG-AAC (коэффициент MDCT в соответствии со стандартом MPEG-AAC) посредством предшествующей обработки гребенки фильтров, описанной, например, на фиг.0.2 - MPEG-2 AAC блок-схема декодера, включенной в NPL 1. Другими словами, устройство декодирования звука в соответствии с реализацией настоящего изобретения отличается от традиционного устройства декодирования звука при декодировании без какого-либо процесса в гребенке фильтров. Хотя задержка возникает в схеме задержки, включенной в гребенку фильтров в традиционном устройстве декодирования звука, модуль 502 промежуточного декодирования сигнала понижающего микширования в соответствии с реализацией настоящего изобретения не нуждается в гребенке фильтров, и соответственно не возникает никакой задержки.

Модуль 503 преобразования областей преобразует сигнал, который находится в частотной области и получается посредством промежуточного декодирования понижающего микширования с помощью модуля 502 промежуточного декодирования сигнала понижающего микширования, в сигнал другой частотной области для регулирования сигнала понижающего микширования по необходимости.

Точнее говоря, модуль 503 преобразования областей выполняет преобразование в область, в которой выполняется компенсация понижающего микширования, используя информацию об области компенсации понижающего микширования, которая указывает частотную область и включается в кодированный поток. Информация об области компенсации понижающего микширования является информацией, указывающей, в какой области выполняется компенсация понижающего микширования. Например, устройство кодирования звука кодирует, в качестве информации об области компенсации понижающего микширования, "01" в гребенке QMF, "00" в области MDCT и "10" в области FFT, и модуль 503 преобразования областей определяет, в какой области выполняется компенсация понижающего микширования, путем приема информации об области компенсации понижающего микширования.

Затем схема 504 регулирования понижающего микширования регулирует сигнал понижающего микширования, полученный с помощью модуля 503 преобразования областей, используя информацию о компенсации понижающего микширования, вычисленную устройством кодирования звука. Другими словами, схема 504 регулирования понижающего микширования вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. Способ регулировки, который зависит от стандарта кодирования информации о компенсации понижающего микширования, будет описываться позднее.

Модуль 505 синтеза SAC разделяет промежуточный сигнал понижающего микширования IDMX, отрегулированный схемой 504 регулирования понижающего микширования, используя, например, ICC и ILD, включенные в пространственную информацию, на многоканальный звуковой сигнал частотной области.

Модуль 506 преобразования f-t преобразует результирующий сигнал в многоканальный звуковой сигнал временной области и воспроизводит многоканальный звуковой сигнал. Здесь модуль 506 преобразования f-t использует гребенку фильтров, например Обратное модифицированное дискретное косинусное преобразование (IMDCT).

NPL 1 описывает подробности применения стандарта MPEG Surround в качестве стандарта SAC в модуле 505 синтеза SAC.

В устройстве декодирования звука, имеющем такую конфигурацию, возникает задержка в модуле 505 синтеза SAC и модуле 506 преобразования f-t, каждый из которых включает схему задержки. Величины задержек обозначаются соответственно как D5 и D2.

Сравнение между традиционным устройством SAC-декодирования на фиг.9 и устройством декодирования звука в соответствии с реализацией настоящего изобретения (фиг.4) проясняет различия в конфигурациях. Как проиллюстрировано на фиг.9, модуль 209 декодирования сигнала понижающего микширования в традиционном устройстве SAC-декодирования включает в себя модуль преобразования f-t, который вызывает задержку из D4 отсчетов. Кроме того, поскольку модуль 211 синтеза SAC вычисляет сигнал в частотной области, ему нужен модуль 210 преобразования t-f, который временно преобразует выход модуля 209 декодирования сигнала понижающего микширования в сигнал частотной области, и преобразование вызывает задержку в D0 отсчетов. Таким образом, общая задержка в устройстве декодирования звука достигает D4+D0+D5+D2 отсчетов.

С другой стороны, на фиг.4 в соответствии с реализацией настоящего изобретения общая величина задержки получается путем сложения D5 отсчетов, что составляет величину задержки в модуле 505 синтеза SAC, и D2 отсчетов, что составляет величину задержки в модуле 506 преобразования f-t. Таким образом, по сравнению с традиционным примером на фиг.9 устройство декодирования звука уменьшает задержку на D4+D0 отсчетов.

Далее будут описываться операции схемы 406 компенсации понижающего микширования и схемы 504 регулирования понижающего микширования.

Сначала будет описываться значение схемы 406 компенсации понижающего микширования в Варианте 1 осуществления путем указания проблем в предшествующем уровне техники.

Фиг.8 иллюстрирует конфигурацию традиционного устройства SAC-кодирования.

Модуль 203 понижающего микширования осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области. Способ понижающего микширования включает в себя способ, рекомендованный ITU. Модуль 204 преобразования f-t преобразует промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области, в сигнал понижающего микширования DMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала временной области.

Модуль 205 кодирования сигнала понижающего микширования кодирует сигнал понижающего микширования DMX, например, в соответствии со стандартом MPEG-AAC. Здесь модуль 205 кодирования сигнала понижающего микширования выполняет ортогональное преобразование из временной области в частотную область. Таким образом, преобразование между временной областью и частотной областью в модуле 204 преобразования f-t и модуле 205 кодирования сигнала понижающего микширования вызывает огромную задержку.

Таким образом, обращая особое внимание на характерную черту, что сигнал понижающего микширования, который находится в частотной области и формируется модулем 205 кодирования сигнала понижающего микширования, принадлежит к тому же типу, что и промежуточный сигнал понижающего микширования IDMX, сформированный модулем 202 анализа SAC, модуль 204 преобразования f-t исключается из устройства SAC-кодирования. Затем схема 403 произвольного понижающего микширования, проиллюстрированная на фиг.1, предоставляется в качестве схемы для понижающего микширования многоканального звукового сигнала в один из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области. Кроме того, второй модуль 405 преобразования t-f предоставляется для выполнения такой же обработки, как преобразование в модуле 205 кодирования сигнала понижающего микширования из временной области в частотную область.

Здесь имеется разность между (i) исходным сигналом понижающего микширования DMX, полученным путем преобразования промежуточного сигнала понижающего микширования IDMX частотной области в сигнал понижающего микширования временной области, используя модуль 204 преобразования f-t на фиг.8, и (ii) промежуточным сигналом произвольного понижающего микширования IADMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала, который находится во временной области и получается с помощью схемы 403 произвольного понижающего микширования и второго модуля 405 преобразования t-f на фиг.1. Таким образом, разность вызывает ухудшение качества звука.

Таким образом, схема 406 компенсации понижающего микширования предоставляется в качестве схемы для компенсации разности в Варианте 1 осуществления. Таким образом, предотвращается ухудшение качества звука. Кроме того, схема 406 компенсации понижающего микширования может уменьшить величину задержки при преобразовании посредством модуля 204 преобразования f-t из частотной области во временную область.

Далее будет описываться конфигурация схемы 406 компенсации понижающего микширования в соответствии с Вариантом 1 осуществления. Здесь предположение состоит в том, что M коэффициентов частотной области могут вычисляться в каждом из кадров кодирования и кадров декодирования.

Модуль 402 анализа SAC осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX. Коэффициент частотной области, соответствующий промежуточному сигналу понижающего микширования IDMX, выражается в виде x(n)(n=0, 1, …, M-1).

С другой стороны, второй модуль 405 преобразования t-f преобразует сигнал произвольного понижающего микширования ADMX, сформированный схемой 403 произвольного понижающего микширования, в промежуточный сигнал произвольного понижающего микширования IADMX, который является сигналом частотной области. Коэффициент частотной области, соответствующий промежуточному сигналу произвольного понижающего микширования IADMX, выражается в виде y(n)(n=0, 1, …, M-1).

Схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования, используя промежуточный сигнал понижающего микширования IDMX и промежуточный сигнал произвольного понижающего микширования IADMX. Вычислительные процессы у схемы 406 компенсации понижающего микширования, в соответствии с Вариантом 1 осуществления, выглядят следующим образом.

Когда частотная область является только частотной областью, разрешение по частоте, которое является относительно неточным, назначается информации о метках, которая является пространственной информацией и информацией о компенсации понижающего микширования. Наборы коэффициентов частотной области, сгруппированных в соответствии с каждым разрешением по частоте, называются наборами параметров. Каждый из наборов параметров обычно включает в себя по меньшей мере один коэффициент частотной области. Все представления информации о компенсации понижающего микширования допускаются к определению в соответствии с такой же структурой, как у пространственной информации в настоящем изобретении, чтобы упростить сочетания пространственной информации. Очевидно, что информация о компенсации понижающего микширования и пространственная информация могут быть структурированы по-разному.

Информация о компенсации понижающего микширования, вычисленная путем масштабирования, выражается в виде уравнения 8.

[Уравнение 8]

G l e v , i = n p s i x 2 ( n ) n p s i y 2 ( n ) для i=0, 1, …, N-1

Здесь Glev,i представляет информацию о компенсации понижающего микширования, указывающую отношение мощностей между промежуточным сигналом понижающего микширования IDMX и промежуточным сигналом произвольного понижающего микширования IADMX. x(n) является коэффициентом частотной области у промежуточного сигнала понижающего микширования IDMX. y(n) является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX. psi представляет каждый набор параметров, а точнее говоря, является подмножеством множества {0, 1, …, M-1}. N представляет количество подмножеств, полученное путем деления множества {0, 1, …, M-1}, имеющего M элементов, и представляет количество наборов параметров.

Другими словами, как проиллюстрировано на фиг.5, схема 406 компенсации понижающего микширования вычисляет Glev,i, которое представляет N порций информации о компенсации понижающего микширования, используя x(n) и y(n), каждое из которых представляет M коэффициентов частотной области.

Вычисленное Glev,i квантуется и мультиплексируется в битовый поток путем исключения избыточностей, используя по необходимости кодирование по способу Хаффмана.

Устройство декодирования звука принимает битовый поток и вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX, используя (i) y(n), который является коэффициентом частотной области у декодированного промежуточного сигнала произвольного понижающего микширования IADMX, и (ii) принятое Glev,i, которое представляет информацию о компенсации понижающего микширования.

[Уравнение 9]

x ^ ( n ) = y ( n ) G l e v , i для n p s i и i=0, 1, …, N-1

Здесь левая часть уравнения 9 представляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. psi представляет каждый набор параметров. N представляет количество наборов параметров.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 выполняет вычисление в уравнении 9. По существу, устройство декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX (левая часть уравнения 9), используя (i) y(n), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, полученного из битового потока сигналов, и (ii) Glev,i, которое представляет информацию о компенсации понижающего микширования. Модуль 505 синтеза SAC формирует многоканальный звуковой сигнал из приблизительного значения коэффициента частотной области у сигнала промежуточного понижающего микширования IDMX. Модуль 506 преобразования f-t преобразует многоканальный звуковой сигнал частотной области в многоканальный звуковой сигнал временной области.

Устройство декодирования звука в соответствии с Вариантом 1 осуществления реализует эффективное декодирование с использованием Glev,i, которое представляет информацию о компенсации понижающего микширования для каждого набора параметров.

Устройство декодирования звука считывает LD_flag на фиг.2, и когда LD_flag указывает информацию о компенсации понижающего микширования, снабженную LD_flag, информация о компенсации понижающего микширования может быть пропущена. Пропуск может вызвать ухудшение качества звука, но может привести к декодированию сигнала с меньшей задержкой.

Устройство кодирования звука и устройство декодирования звука, имеющие вышеупомянутые конфигурации, (1) распараллеливают часть вычислительных процессов, (2) совместно используют часть гребенки фильтров и (3) заново добавляют схему для компенсации ухудшения звука, вызванного (1) и (2), и передают вспомогательную информацию для компенсации ухудшения звука в виде битового потока. Конфигурации позволяют уменьшить величину задержки алгоритма в половину от стандарта SAC, представленного стандартом MPEG Surround, что дает возможность передачи сигнала с более высоким качеством звука на значительно меньшей скорости битового потока, но с более высокой задержкой, и позволяют обеспечить качество звука, эквивалентное таковому в стандарте SAC.

(Вариант 2 осуществления)

Ниже схема компенсации понижающего микширования и схема регулирования понижающего микширования в соответствии с Вариантом 2 осуществления в настоящем изобретении будут описываться со ссылкой на чертежи.

Хотя базовые конфигурации устройства кодирования звука и устройства декодирования звука в соответствии с Вариантом 2 осуществления являются такими же, как у устройства кодирования звука и устройства декодирования звука в соответствии с Вариантом 1 осуществления, которые показаны на фиг.1 и 4, операции схемы 406 компенсации понижающего микширования отличаются в Варианте 2 осуществления, который будет подробно описываться ниже.

Будут описываться операции схемы 406 компенсации понижающего микширования в соответствии с Вариантом 2 осуществления.

Сначала будет описываться значение схемы 406 компенсации понижающего микширования в Варианте 2 осуществления путем указания проблем в предшествующем уровне техники.

Фиг.8 иллюстрирует конфигурацию традиционного устройства SAC-кодирования.

Модуль 203 понижающего микширования осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области. Способ понижающего микширования включает в себя способ, рекомендованный ITU. Модуль 204 преобразования f-t преобразует промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области, в сигнал понижающего микширования DMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала временной области.

Модуль 205 кодирования сигнала понижающего микширования кодирует сигнал понижающего микширования DMX, например, в соответствии со стандартом MPEG-AAC. Здесь модуль 205 кодирования сигнала понижающего микширования выполняет ортогональное преобразование из временной области в частотную область. Таким образом, преобразование между временной областью и частотной областью посредством модуля 204 преобразования f-t и модуля 205 кодирования сигнала понижающего микширования вызывает огромную задержку.

Таким образом, обращая особое внимание на характерную черту, что сигнал понижающего микширования в частотной области, который формируется модулем 205 кодирования сигнала понижающего микширования, принадлежит к тому же типу, что и промежуточный сигнал понижающего микширования IDMX, сформированный модулем 202 анализа SAC, модуль 204 преобразования f-t исключается из устройства SAC-кодирования. Затем схема 403 произвольного понижающего микширования, проиллюстрированная на фиг.1, предоставляется в качестве схемы для понижающего микширования многоканального звукового сигнала в один из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области. Кроме того, второй модуль 405 преобразования t-f предоставляется для выполнения такой же обработки, как преобразование в модуле 205 кодирования сигнала понижающего микширования из временной области в частотную область.

Здесь имеется разность между (i) исходным сигналом понижающего микширования DMX, полученным путем преобразования промежуточного сигнала понижающего микширования IDMX частотной области в сигнал понижающего микширования временной области, используя модуль 204 преобразования f-t на фиг.8, и (ii) промежуточным сигналом произвольного понижающего микширования IADMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области, полученным с помощью схемы 403 произвольного понижающего микширования и второго модуля 405 преобразования t-f на фиг.1. Таким образом, разность вызывает ухудшение качества звука.

Таким образом, схема 406 компенсации понижающего микширования предоставляется в качестве схемы для компенсации разности в Варианте 2 осуществления. Таким образом, предотвращается ухудшение качества звука. Кроме того, схема 406 компенсации понижающего микширования может уменьшить величину задержки при преобразовании посредством модуля 204 преобразования f-t из частотной области во временную область.

Далее будет описываться конфигурация схемы 406 компенсации понижающего микширования в соответствии с Вариантом 2 осуществления. Здесь предположение состоит в том, что M коэффициентов частотной области могут вычисляться в каждом из кадров кодирования и кадров декодирования.

Модуль 402 анализа SAC осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX. Коэффициенты частотной области, соответствующие промежуточному сигналу понижающего микширования IDMX, выражают в виде x(n)(n=0, 1, …, M-1).

С другой стороны, второй модуль 405 преобразования t-f преобразует сигнал произвольного понижающего микширования ADMX, сформированный схемой 403 произвольного смешивания, в промежуточный сигнал произвольного понижающего микширования IADMX, который является сигналом частотной области. Коэффициент частотной области, соответствующий промежуточному сигналу произвольного понижающего микширования IADMX, выражается в виде y(n)(n=0, 1, …, M-1).

Схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования, используя промежуточный сигнал понижающего микширования IDMX и промежуточный сигнал произвольного понижающего микширования IADMX. Вычислительные процессы у схемы 406 компенсации понижающего микширования, в соответствии с Вариантом 2 осуществления, выглядят следующим образом.

Когда частотная область является простой частотной областью, разрешение по частоте, которое является относительно неточным, назначается информации о метках, которая является пространственной информацией и информацией о компенсации понижающего микширования. Наборы коэффициентов частотной области, сгруппированных в соответствии с каждым разрешением по частоте, называются наборами параметров. Каждый из наборов параметров обычно включает в себя по меньшей мере один коэффициент частотной области. Все представления информации о компенсации понижающего микширования допускаются к определению в соответствии с такой же структурой, как у пространственной информации в настоящем изобретении, чтобы упростить сочетания пространственной информации. Очевидно, что информация о компенсации понижающего микширования и пространственная информация могут быть структурированы по-разному.

Когда стандарт MPEG Surround применяется в качестве стандарта SAC, гребенка QMF используется для преобразования из временной области в частотную область. Как проиллюстрировано на фиг.6, преобразование с использованием гребенки QMF приводит к гибридной области, которая является частотной областью, имеющей компонент в направлении оси времени. x(n), который является коэффициентом частотной области у промежуточного сигнала понижающего микширования IDMX, и y(n), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, выражаются соответственно в виде x(m, hb) и y(m, hb) (m=0, 1, …, M-1, hb=0, 1, …, HB-1), которые являются выражениями коэффициентов частотной области, полученными посредством временного разложения.

Пространственная информация вычисляется на основе объединенного параметра (PS-PB), полученного из диапазона параметров и набора параметров. Как проиллюстрировано на фиг.6, каждый объединенный параметр (PS-PB) обычно включает в себя временные интервалы и гибридные диапазоны. В таком случае схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования, используя уравнение 10.

[Уравнение 10]

G l e v , i = m p s i , h b p b i x 2 ( m , h b ) m p s i , h b p b i y 2 ( m , h b ) для i=0, 1, …, N-1

Здесь Glev,i является информацией о компенсации понижающего микширования, указывающей отношение мощностей между промежуточным сигналом понижающего микширования IDMX и промежуточным сигналом произвольного понижающего микширования IADMX. psi представляет каждый набор параметров. pbi представляет диапазон параметров. N представляет количество объединенных параметров (PS-PB). x(m, hb) представляет коэффициент частотной области у промежуточного сигнала понижающего микширования IDMX. y(m, hb) представляет коэффициент частотной области у промежуточного сигнала произвольного понижающего микширования IADMX.

Другими словами, как на фиг.6, схема 406 компенсации понижающего микширования вычисляет Glev,i, которое является информацией о компенсации понижающего микширования, соответствующей N объединенным параметрам (PS-PB), используя x(m, hb) и y(m, hb), которые представляют соответственно M временных интервалов и HB гибридных диапазонов.

Устройство 407 мультиплексирования мультиплексирует вычисленную информацию о компенсации понижающего микширования в битовый поток и передает битовый поток.

Затем схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX, используя уравнение 11.

[Уравнение 11]

x ^ ( m , h b ) = y ( m , h b ) G l e v , i для m p s i , h b p b i и i=0, 1, …, N-1

Здесь левая часть уравнения 11 представляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. Здесь Glev,i является информацией о компенсации понижающего микширования, указывающей отношение мощностей между промежуточным сигналом понижающего микширования IDMX и промежуточным сигналом произвольного понижающего микширования IADMX. psi представляет набор параметров. pbi представляет диапазон параметров. N представляет количество объединенных параметров (PS-PB).

Схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 выполняет вычисление в уравнении 11. По существу, устройство декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX (левая часть уравнения 11), используя (i) y(m, hb), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, полученного из битового потока, и (ii) Glev,i, которое представляет информацию о компенсации понижающего микширования. Модуль 505 синтеза SAC формирует многоканальный звуковой сигнал из приблизительного значения коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. Модуль 506 преобразования f-t преобразует многоканальный звуковой сигнал частотной области в многоканальный звуковой сигнал временной области.

Устройство декодирования звука в соответствии с Вариантом 2 осуществления реализует эффективное декодирование с использованием Glev,i, которое представляет информацию о компенсации понижающего микширования для каждого из объединенных параметров (PS-PB).

Устройство кодирования звука и устройство декодирования звука, имеющие вышеупомянутые конфигурации, (1) распараллеливают часть вычислительных процессов, (2) совместно используют часть гребенки фильтров и (3) заново добавляют схему для компенсации ухудшения звука, вызванного (1) и (2), и передают вспомогательную информацию для компенсации ухудшения звука в виде битового потока. Конфигурации позволяют уменьшить величину задержки алгоритма в половину от стандарта SAC, представленного стандартом MPEG Surround, что дает возможность передачи сигнала с более высоким качеством звука на значительно меньшей скорости битового потока, но с более высокой задержкой, и позволяют обеспечить качество звука, эквивалентное таковому в стандарте SAC.

(Вариант 3 осуществления)

Ниже схема компенсации понижающего микширования и схема регулирования понижающего микширования в соответствии с Вариантом 3 осуществления в настоящем изобретении будут описываться со ссылкой на чертежи.

Хотя базовые конфигурации устройства кодирования звука и устройства декодирования звука в соответствии с Вариантом 3 осуществления являются такими же, как у устройства кодирования звука и устройства декодирования звука в соответствии с Вариантом 1 осуществления, которые иллюстрируются на фиг.1 и 4, операции схемы 406 компенсации понижающего микширования отличаются в Варианте 3 осуществления, который будет подробно описываться ниже.

Будут описываться операции схемы 406 компенсации понижающего микширования в соответствии с Вариантом 3 осуществления.

Сначала будет описываться значение схемы 406 компенсации понижающего микширования в Варианте 3 осуществления путем указания проблем в предшествующем уровне техники.

Фиг.8 иллюстрирует конфигурацию традиционного устройства SAC-кодирования.

Модуль 203 понижающего микширования осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области. Способ понижающего микширования включает в себя способ, рекомендованный ITU. Модуль 204 преобразования f-t преобразует промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области, в сигнал понижающего микширования DMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала временной области.

Модуль 205 кодирования сигнала понижающего микширования кодирует сигнал понижающего микширования DMX, например, в соответствии со стандартом MPEG-AAC. Здесь модуль 205 кодирования сигнала понижающего микширования выполняет ортогональное преобразование из временной области в частотную область. Таким образом, преобразование между временной областью и частотной областью посредством модуля 204 преобразования f-t и модуля 205 кодирования сигнала понижающего микширования вызывает огромную задержку.

Таким образом, обращая особое внимание на характерную черту, что сигнал понижающего микширования в частотной области, который формируется модулем 205 кодирования сигнала понижающего микширования, принадлежит к тому же типу, что и промежуточный сигнал понижающего микширования IDMX, сформированный модулем 202 анализа SAC, модуль 204 преобразования f-t исключается из устройства SAC-кодирования. Затем схема 403 произвольного понижающего микширования, проиллюстрированная на фиг.1, предоставляется в качестве схемы для понижающего микширования многоканального звукового сигнала в один из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области. Кроме того, второй модуль 405 преобразования t-f предоставляется для выполнения такой же обработки, как преобразование в модуле 205 кодирования сигнала понижающего микширования из временной области в частотную область.

Здесь имеется разность между (i) исходным сигналом понижающего микширования DMX, полученным путем преобразования промежуточного сигнала понижающего микширования IDMX частотной области в сигнал понижающего микширования временной области, используя модуль 204 преобразования f-t на фиг.8, и (ii) промежуточным сигналом произвольного понижающего микширования IADMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области, полученным с помощью схемы 403 произвольного понижающего микширования и второго модуля 405 преобразования t-f на фиг.1. Таким образом, разность вызывает ухудшение качества звука.

Таким образом, схема 406 компенсации понижающего микширования предоставляется в качестве схемы для компенсации разности в Варианте 3 осуществления. Таким образом, предотвращается ухудшение качества звука. Кроме того, схема 406 компенсации понижающего микширования может уменьшить величину задержки при преобразовании посредством модуля 204 преобразования f-t из частотной области во временную область.

Далее будет описываться конфигурация схемы 406 компенсации понижающего микширования в соответствии с Вариантом 3 осуществления. Здесь предположение состоит в том, что M коэффициентов частотной области могут вычисляться в каждом из кадров кодирования и кадров декодирования.

Модуль 402 анализа SAC осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX. Коэффициент частотной области, соответствующий промежуточному сигналу понижающего микширования IDMX, выражается в виде x(n)(n=0, 1, …, M-1).

С другой стороны, второй модуль 405 преобразования t-f преобразует сигнал произвольного понижающего микширования ADMX, сформированный схемой 403 произвольного понижающего микширования, в промежуточный сигнал произвольного понижающего микширования IADMX, который является сигналом частотной области. Коэффициент частотной области, соответствующий промежуточному сигналу произвольного понижающего микширования IADMX, выражается в виде y(n)(n=0, 1, …, M-1).

Схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования, используя промежуточный сигнал понижающего микширования IDMX и промежуточный сигнал произвольного понижающего микширования IADMX. Вычислительные процессы у схемы 406 компенсации понижающего микширования, в соответствии с Вариантом 3 осуществления, выглядят следующим образом.

Когда частотная область является простой частотной областью, схема 406 компенсации понижающего микширования вычисляет Gres, которое является информацией о компенсации понижающего микширования, как разность между промежуточным сигналом понижающего микширования IDMX и промежуточным сигналом произвольного понижающего микширования IADMX, используя уравнение 12.

[Уравнение 12]

G r e s ( n ) = ( x ( n ) y ( n ) ) n=0, 1, …, M-1

Gres в уравнении 12 является информацией о компенсации понижающего микширования, указывающей разность между промежуточным сигналом понижающего микширования IDMX и промежуточным сигналом произвольного понижающего микширования IADMX. x(n) является коэффициентом частотной области у промежуточного сигнала понижающего микширования IDMX. y(n) является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX. M является количеством коэффициентов частотной области, вычисленных в каждом из кадров кодирования и кадров декодирования.

Разностный сигнал, полученный с помощью уравнения 12, квантуется по необходимости, и из квантованного разностного сигнала устраняются избыточности, используя кодирование по способу Хаффмана, и сигнал, мультиплексированный в битовый поток, передается устройству декодирования звука.

Количество результатов в вычислении разностей в уравнении 12 становится большим, потому что не используется набор параметров и другие, описанные в Варианте 1 осуществления. Таким образом, скорость битового потока становится более высокой, в зависимости от стандарта кодирования, который нужно применять на результирующем разностном сигнале. Таким образом, когда кодируется информация о компенсации понижающего микширования, увеличение скорости битового потока минимизируется с использованием, например, способа векторного квантования, в котором разностный сигнал используется в качестве потока одноразрядных чисел. Поскольку нет необходимости в передаче сохраненных сигналов, когда кодируется и декодируется разностный сигнал, понятно, что нет и задержки алгоритма.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX с помощью уравнения 13, используя Gres, которое является разностным сигналом, и y(n), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX.

[Уравнение 13]

x ^ ( n ) = y ( n ) + G r e s ( n ) n=0, 1, …, M-1

Здесь левая часть уравнения 13 представляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. M является количеством коэффициентов частотной области, вычисленных в каждом из кадров кодирования и кадров декодирования.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 выполняет вычисление в уравнении 13. По существу, устройство декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX (левая часть уравнения 13), используя (i) y(n), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, полученного из битового потока, и (ii) Gres, которое представляет информацию о компенсации понижающего микширования. Модуль 505 синтеза SAC формирует многоканальный звуковой сигнал из приблизительного значения коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. Модуль 506 преобразования f-t преобразует многоканальный звуковой сигнал частотной области в многоканальный звуковой сигнал временной области.

Когда частотная область является гибридной областью между частотной областью и временной областью, схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования с использованием уравнения 14.

[Уравнение 14]

G r e s ( m , h b ) = ( x ( m , h b ) y ( m , h b ) ) для m=0, 1, …, M-1; hb=0, 1, …, HB-1

Gres в уравнении 14 является информацией о компенсации понижающего микширования, указывающей разность между промежуточным сигналом понижающего микширования IDMX и промежуточным сигналом произвольного понижающего микширования IADMX. x(m, hb) представляет коэффициент частотной области у промежуточного сигнала понижающего микширования IDMX. y(m, hb) представляет коэффициент частотной области у промежуточного сигнала произвольного понижающего микширования IADMX. M является количеством коэффициентов частотной области, вычисленных в каждом из кадров кодирования и кадров декодирования. HB представляет количество гибридных диапазонов.

Затем схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX, используя уравнение 15.

[Уравнение 15]

x ^ ( m , h b ) = y ( m , h b ) + G r e s ( m , h b ) для m=0, 1, …, M-1; hb=0, 1, …, HB-1

Здесь левая часть уравнения 15 представляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. y(m, hb) представляет коэффициент частотной области у промежуточного сигнала произвольного понижающего микширования IADMX. M является количеством коэффициентов частотной области, вычисленных в каждом из кадров кодирования и кадров декодирования. HB представляет количество гибридных диапазонов.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 выполняет вычисление в уравнении 15. По существу, устройство декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX (левая часть уравнения 15), используя (i) y(m, hb), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, полученного из битового потока, и (ii) Gres, которое представляет информацию о компенсации понижающего микширования. Модуль 505 синтеза SAC формирует многоканальный звуковой сигнал из приблизительного значения коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. Модуль 506 преобразования f-t преобразует многоканальный звуковой сигнал частотной области в многоканальный звуковой сигнал временной области.

Устройство кодирования звука и устройство декодирования звука, имеющие вышеупомянутые конфигурации, (1) распараллеливают часть вычислительных процессов, (2) совместно используют часть гребенки фильтров и (3) заново добавляют схему для компенсации ухудшения звука, вызванного (1) и (2), и передают вспомогательную информацию для компенсации ухудшения звука в виде битового потока. Конфигурации позволяют уменьшить величину задержки алгоритма в половину от стандарта SAC, представленного стандартом MPEG Surround, что дает возможность передачи сигнала с более высоким качеством звука на значительно меньшей скорости битового потока, но с более высокой задержкой, и позволяют обеспечить качество звука, эквивалентное таковому в стандарте SAC.

(Вариант 4 осуществления)

Ниже схема компенсации понижающего микширования и схема регулирования понижающего микширования в соответствии с Вариантом 4 осуществления в настоящем изобретении будут описываться со ссылкой на чертежи.

Хотя базовые конфигурации устройства кодирования звука и устройства декодирования звука в соответствии с Вариантом 4 осуществления являются такими же, как у устройства кодирования звука и устройства декодирования звука в соответствии с Вариантом 1 осуществления, которые иллюстрируются на фиг.1 и 4, операции схемы 406 компенсации понижающего микширования и схемы 504 регулирования понижающего микширования отличаются в Варианте 4 осуществления, который будет подробно описываться ниже.

Будут описываться операции схемы 406 компенсации понижающего микширования в соответствии с Вариантом 4 осуществления.

Сначала будет описываться значение схемы 406 компенсации понижающего микширования в Варианте 4 осуществления путем указания проблем в предшествующем уровне техники.

Фиг.8 иллюстрирует конфигурацию традиционного устройства SAC-кодирования.

Модуль 203 понижающего микширования осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области. Способ понижающего микширования включает в себя способ, рекомендованный ITU. Модуль 204 преобразования f-t преобразует промежуточный сигнал понижающего микширования IDMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала частотной области, в сигнал понижающего микширования DMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала временной области.

Модуль 205 кодирования сигнала понижающего микширования кодирует сигнал понижающего микширования DMX, например, в соответствии со стандартом MPEG-AAC. Здесь модуль 205 кодирования сигнала понижающего микширования выполняет ортогональное преобразование из временной области в частотную область. Таким образом, преобразование между временной областью и частотной областью посредством модуля 204 преобразования f-t и модуля 205 кодирования сигнала понижающего микширования вызывает огромную задержку.

Таким образом, обращая особое внимание на характерную черту, что сигнал понижающего микширования в частотной области, который формируется модулем 205 кодирования сигнала понижающего микширования, принадлежит к тому же типу, что и промежуточный сигнал понижающего микширования IDMX, сформированный модулем 202 анализа SAC, модуль 204 преобразования f-t исключается из устройства SAC-кодирования. Затем схема 403 произвольного понижающего микширования, проиллюстрированная на фиг.1, предоставляется в качестве схемы для понижающего микширования многоканального звукового сигнала в один из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области. Кроме того, второй модуль 405 преобразования t-f предоставляется для выполнения такой же обработки, как преобразование в модуле 205 кодирования сигнала понижающего микширования из временной области в частотную область.

Здесь имеется разность между (i) исходным сигналом понижающего микширования DMX, полученным путем преобразования промежуточного сигнала понижающего микширования IDMX частотной области в сигнал понижающего микширования временной области, используя модуль 204 преобразования f-t на фиг.8, и (ii) промежуточным сигналом произвольного понижающего микширования IADMX, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала во временной области, полученным с помощью схемы 403 произвольного понижающего микширования и второго модуля 405 преобразования t-f на фиг.1. Таким образом, разность вызывает ухудшение качества звука.

Таким образом, схема 406 компенсации понижающего микширования предоставляется в качестве схемы для компенсации разности в Варианте 4 осуществления. Таким образом, предотвращается ухудшение качества звука. Кроме того, схема 406 компенсации понижающего микширования может уменьшить величину задержки при преобразовании посредством модуля 204 преобразования f-t из частотной области во временную область.

Далее будет описываться конфигурация схемы 406 компенсации понижающего микширования в соответствии с Вариантом 4 осуществления. Здесь предположение состоит в том, что M коэффициентов частотной области могут вычисляться в каждом из кадров кодирования и кадров декодирования.

Модуль 402 анализа SAC осуществляет понижающее микширование многоканального звукового сигнала частотной области в промежуточный сигнал понижающего микширования IDMX. Коэффициент частотной области, соответствующий промежуточному сигналу понижающего микширования IDMX, выражается в виде x(n)(n=0, 1, …, M-1).

С другой стороны, второй модуль 405 преобразования t-f преобразует сигнал произвольного понижающего микширования ADMX, сформированный схемой 403 произвольного понижающего микширования, в промежуточный сигнал произвольного понижающего микширования IADMX, который является сигналом частотной области. Коэффициент частотной области, соответствующий промежуточному произвольному сигналу понижающего микширования IADMX, выражается в виде y(n)(n=0, 1, …, M-1).

Схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования, используя промежуточный сигнал понижающего микширования IDMX и промежуточный сигнал произвольного понижающего микширования IADMX. Вычислительные процессы у схемы 406 компенсации понижающего микширования, в соответствии с Вариантом 4 осуществления, выглядят следующим образом.

Сначала будет описываться случай, где частотная область является простой частотной областью.

Кроме того, схема 406 компенсации понижающего микширования вычисляет коэффициент предсказывающего фильтра в качестве информации о компенсации понижающего микширования. Способы для формирования коэффициента предсказывающего фильтра, которые должны использоваться схемой 406 компенсации понижающего микширования, включают в себя способ для формирования оптимального предсказывающего фильтра с помощью Способа минимальной среднеквадратической ошибки (MMSE), использующего фильтр Винера с конечной импульсной характеристикой (FIR).

Предполагая коэффициенты FIR у фильтра Винера в виде Gpred,i(0), Gpred,i(1), …, Gpred,i(K-1), ξ, которое является значением среднеквадратической ошибки (MSE), выражается уравнением 16.

[Уравнение 16]

ξ = n p s i ( x ( n ) k = 0 K 1 G p r e d , i ( k ) y ( n k ) ) 2 для i=0, 1, …, N-1

x(n) в уравнении 16 представляет коэффициент частотной области у промежуточного сигнала понижающего микширования IDMX. y(n) является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX. K является количеством коэффициентов FIR. psi представляет набор параметров.

В уравнении 16 для получения MSE схема 406 компенсации понижающего микширования вычисляет, в качестве информации о компенсации понижающего микширования, Gpred,i(j), в котором производная для каждого элемента Gpred,i(j) устанавливается в 0, как выражено уравнением 17.

[Уравнение 17]

ξ G p r e d , i ( j ) = 0, для j=0, 1, …, K-1

G p r e d , i o p t = [ G p r e d , i ( 0 ) G p r e d , i ( 1 ) M G p r e d , i ( K 1 ) ] = Φ y y 1 Φ y x

Φyy в уравнении 17 представляет автокорреляционную матрицу y(n). Φyx представляет кросскорреляционную матрицу между y(n), соответствующим промежуточному сигналу произвольного понижающего микширования IADMX, и x(n), соответствующим промежуточному сигналу понижающего микширования IDMX. Здесь n является элементом из набора параметров psi.

Устройство кодирования звука квантует вычисленный Gpred,i(j), мультиплексирует результат в кодированный поток и передает кодированный поток.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука, которое принимает кодированный поток, вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX, используя коэффициент предсказания Gpred,i(j) и y(n), который является коэффициентом частотной области у принятого промежуточного сигнала произвольного понижающего микширования IADMX, используя следующее уравнение.

[Уравнение 18]

x ^ ( n ) = k = 0 K 1 G p r e d , i ( k ) y ( n k )

Здесь левая часть уравнения 18 представляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 выполняет вычисление в уравнении 18. По существу, устройство декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX (левая часть уравнения 18), используя (i) y(n), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, полученного путем декодирования битового потока, и (ii) Gpred,i, которое представляет информацию о компенсации понижающего микширования. Модуль 506 преобразования f-t преобразует многоканальный звуковой сигнал частотной области в многоканальный звуковой сигнал временной области.

Когда частотная область является гибридной областью между частотной областью и временной областью, схема 406 компенсации понижающего микширования вычисляет информацию о компенсации понижающего микширования с использованием следующего уравнения.

[Уравнение 19]

ξ G p r e d , i ( j ) = 0, для j=0, 1, …, K-1

G p r e d , i o p t = [ G p r e d , i ( 0 ) G p r e d , i ( 1 ) М G p r e d , i ( K 1 ) ] = Φ y y 1 Φ y x

Gpred,i(j) в уравнении 19 является коэффициентом FIR у фильтра Винера и вычисляется в качестве коэффициента предсказания, в котором производная для каждого элемента Gpred,i(j) устанавливается в 0.

Кроме того, Φyy в уравнении 19 представляет автокорреляционную матрицу y(m, hb). Φyx представляет кросскорреляционную матрицу между y(m, hb), соответствующим промежуточному сигналу произвольного понижающего микширования IADMX, и x(m, hb), соответствующим промежуточному сигналу понижающего микширования IDMX. Здесь m является элементом набора параметров psi, а hb является элементом диапазона параметров pbi.

Уравнение 20 используется для вычисления оценочной функции по способу MMSE.

[Уравнение 20]

ξ = m p s i h b p b i ( x ( m , h b ) k = 0 K 1 G p r e d , i ( k ) y ( m , h b k ) ) 2

x(m, hb) в уравнении 20 представляет коэффициент частотной области у промежуточного сигнала понижающего микширования IDMX. y(m, hb) представляет коэффициент частотной области у промежуточного сигнала произвольного понижающего микширования IADMX. K является количеством коэффициентов FIR. psi представляет набор параметров. pbi представляет диапазон параметров.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX, используя принятый коэффициент предсказания Gpred,i(j) и y(n), который является коэффициентом частотной области у принятого промежуточного сигнала произвольного понижающего микширования IADMX, с помощью уравнения 21.

[Уравнение 21]

x ^ ( m , h b ) = k = 0 K 1 G p r e d , i ( k ) y ( m , h b k ) для m p s i , h b p b i и i=0, 1, …, N-1

Здесь левая часть уравнения 21 представляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX.

Схема 504 регулирования понижающего микширования в устройстве декодирования звука на фиг.4 выполняет вычисление в уравнении 21. По существу, устройство декодирования звука вычисляет приблизительное значение коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX (левая часть уравнения 21), используя (i) y(n), который является коэффициентом частотной области у промежуточного сигнала произвольного понижающего микширования IADMX, полученного из битового потока, и (ii) Gpred, которое представляет информацию о компенсации понижающего микширования. Модуль 505 синтеза SAC формирует многоканальный звуковой сигнал из приблизительного значения коэффициента частотной области у промежуточного сигнала понижающего микширования IDMX. Модуль 506 преобразования f-t преобразует многоканальный звуковой сигнал частотной области в многоканальный звуковой сигнал временной области.

Устройство кодирования звука и устройство декодирования звука, имеющие вышеупомянутые конфигурации, (1) распараллеливают часть вычислительных процессов, (2) совместно используют часть гребенки фильтров и (3) заново добавляют схему для компенсации ухудшения звука, вызванного (1) и (2), и передают вспомогательную информацию для компенсации ухудшения звука в виде битового потока. Конфигурации позволяют уменьшить величину задержки алгоритма в половину от стандарта SAC, представленного стандартом MPEG Surround, что дает возможность передачи сигнала с более высоким качеством звука на значительно меньшей скорости битового потока, но с более высокой задержкой, и позволяют обеспечить качество звука, эквивалентное таковому в стандарте SAC.

Устройство кодирования звука и устройство декодирования звука в соответствии с реализацией настоящего изобретения могут уменьшить задержку алгоритма, возникающую в традиционном устройстве многоканального кодирования звука и традиционном устройстве многоканального декодирования звука, и поддерживать на высоких уровнях соотношение между скоростью битового потока и качеством звука, которое является компромиссным соотношением.

Другими словами, настоящее изобретение может гораздо больше уменьшить задержку алгоритма, чем с помощью традиционной методики многоканального кодирования звука, и поэтому обладает преимуществом разрешения построения, например, системы проведения телеконференций, которая обеспечивает связь в реальном масштабе времени, и системы связи, которая дает реалистичные ощущения, и в которой обязательна передача многоканального звукового сигнала с меньшей задержкой и более высоким качеством звука.

Соответственно, реализации настоящего изобретения позволяют передавать и принимать сигнал с более высоким качеством звука и меньшей задержкой с меньшей скоростью битового потока. Таким образом, настоящее изобретение очень подходит для практического использования в последнее время, когда мобильные устройства, например сотовые телефоны, предоставляют связь с реалистичными ощущениями, и аудиовизуальные устройства и системы проведения телеконференций широко распространили полноценную связь с реалистичными ощущениями. Данная заявка не ограничивается этими устройствами, и понятно, что настоящее изобретение эффективно для общей двусторонней связи, в которой обязательна меньшая величина задержки.

Хотя устройство кодирования звука и устройство декодирования звука в соответствии с реализациями настоящего изобретения описываются на основе Вариантов осуществления с 1 по 4, настоящее изобретение не ограничивается этими вариантами осуществления. Настоящее изобретение включает в себя вариант осуществления с некоторыми модификациями к Вариантам осуществления, которые понятны специалисту в данной области техники, и другой вариант осуществления, полученный посредством случайных сочетаний составляющих элементов в Вариантах осуществления в настоящем изобретении.

Настоящее изобретение может быть реализовано не только как такое устройство кодирования звука и устройство декодирования звука, но также в виде способа кодирования звука и способа декодирования звука, использующих характерные модули, включенные в устройство кодирования звука и устройство декодирования звука, соответственно в виде этапов. Кроме того, настоящее изобретение может быть реализовано в виде программы, заставляющей компьютер выполнять такие этапы. Кроме того, настоящее изобретение может быть реализовано в виде полупроводниковой интегральной схемы, например LSI, объединенной с характерными модулями, включенными в устройство кодирования звука и устройство декодирования звука. Очевидно, что такая программа может распространяться с помощью носителей записи, например CD-ROM, и передающей среды, например Интернета.

[Промышленная применимость]

Настоящее изобретение применимо к системе проведения телеконференций, которая обеспечивает связь в реальном масштабе времени, используя методику многоканального кодирования звука и методику многоканального декодирования звука, и к системе связи, которая дает реалистичные ощущения, и в которой обязательна передача многоканального звукового сигнала с меньшей задержкой и более высоким качеством звука. Очевидно, что данная заявка не ограничивается такими системами и применима к общей двусторонней связи, в которой обязательна меньшая величина задержки. Настоящее изобретение применимо, например, к системе домашнего кинотеатра, стереосистеме автомобиля, системе электронных игр, системе проведения телеконференций и сотовому телефону.

[Список позиционных обозначений]

101, 108, 115 Микрофон

102, 109, 116 Устройство многоканального кодирования

103, 104, 110, 111, 117, 118 Устройство многоканального декодирования

105, 112, 119 Устройство представления

106, 113, 120 Динамик

107, 114, 121 Эхокомпенсатор

201, 210 Модуль преобразования временно-частотной области (модуль преобразования t-f)

202, 402 Модуль анализа SAC

203, 408 Модуль понижающего микширования

204, 212, 506 Модуль преобразования частотно-временной области (модуль преобразования f-t)

205, 404 Модуль кодирования сигнала понижающего микширования

206, 409 Модуль вычисления пространственной информации

207, 407 Устройство мультиплексирования

208, 501 Устройство демультиплексирования (разделяющий модуль)

209 Модуль декодирования сигнала понижающего микширования

211, 505 Модуль синтеза SAC

401 Первый модуль преобразования временно-частотной области (первый модуль преобразования t-f)

403 Схема произвольного понижающего микширования

405 Второй модуль преобразования временно-частотной области (второй модуль преобразования t-f)

406 Схема компенсации понижающего микширования

410 Модуль формирования сигнала понижающего микширования

502 Модуль промежуточного декодирования сигнала понижающего микширования

503 Модуль преобразования областей

504 Схема регулирования понижающего микширования

507 Модуль формирования многоканального сигнала

1. Устройство кодирования звука, которое кодирует входной многоканальный звуковой сигнал, причем упомянутое устройство содержит:
модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования через понижающее микширование входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала;
модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодировать первый сигнал понижающего микширования, сформированный упомянутым модулем формирования сигнала понижающего микширования;
первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области; и
модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью упомянутого первого модуля преобразования t-f и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования.

2. Устройство кодирования звука по п.1, дополнительно содержащее:
второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного упомянутым модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области;
модуль понижающего микширования, сконфигурированный с возможностью осуществлять понижающее микширование многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью упомянутого первого модуля преобразования t-f; и
схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью упомянутого второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного упомянутым модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области.

3. Устройство кодирования звука по п.2, дополнительно содержащее:
устройство мультиплексирования, сконфигурированное с возможностью хранения информации о компенсации понижающего микширования и пространственной информации в одном и том же кодированном потоке.

4. Устройство кодирования звука по п.2,
в котором упомянутая схема компенсации понижающего микширования вычисляет отношение мощностей между сигналами как информацию о компенсации понижающего микширования.

5. Устройство кодирования звука по п.2,
в котором упомянутая схема компенсации понижающего микширования вычисляет разность между сигналами как информацию о компенсации понижающего микширования.

6. Устройство кодирования звука по п.2,
в котором упомянутая схема компенсации понижающего микширования вычисляет коэффициент предсказывающего фильтра как информацию о компенсации понижающего микширования.

7. Устройство декодирования звука, которое декодирует принятый битовый поток сигналов в многоканальный звуковой сигнал, причем упомянутое устройство содержит:
разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования;
схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области;
модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного упомянутой схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и
модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется упомянутым модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.

8. Устройство декодирования звука по п.7, дополнительно содержащее:
модуль понижающего микширования промежуточного декодирования, сконфигурированный с возможностью формирования сигнала понижающего микширования в частотной области путем деквантования кодированного сигнала понижающего микширования, включенного в информационную часть; и
модуль преобразования областей, сконфигурированный с возможностью преобразования сигнала понижающего микширования, который формируется упомянутым модулем понижающего микширования промежуточного декодирования и находится в частотной области, в сигнал понижающего микширования в частотной области, имеющей компонент в направлении оси времени,
причем упомянутая схема регулирования понижающего микширования регулирует сигнал понижающего микширования, полученный с помощью упомянутого модуля преобразования областей, используя информацию о компенсации понижающего микширования, причем сигнал понижающего микширования находится в частотной области, имеющей компонент в направлении оси времени.

9. Устройство декодирования звука по п.7,
в котором упомянутая схема регулирования понижающего микширования получает отношение мощностей между сигналами как информацию о компенсации понижающего микширования и регулирует сигнал понижающего микширования путем умножения сигнала понижающего микширования на отношение мощностей.

10. Устройство декодирования звука по п.7,
в котором упомянутая схема регулирования понижающего микширования получает разность между сигналами как информацию о компенсации понижающего микширования и регулирует сигнал понижающего микширования путем прибавления разности к сигналу понижающего микширования.

11. Устройство декодирования звука по п.7,
в котором упомянутая схема регулирования понижающего микширования получает коэффициент предсказывающего фильтра как информацию о компенсации понижающего микширования и регулирует сигнал понижающего микширования путем применения к сигналу понижающего микширования предсказывающего фильтра, используя коэффициент предсказывающего фильтра.

12. Устройство кодирования и декодирования звука, содержащее:
(i) устройство кодирования звука, сконфигурированное с возможностью кодирования входного многоканального звукового сигнала; и
(ii) устройство декодирования звука, сконфигурированное с возможностью декодирования принятого битового потока в многоканальный звуковой сигнал,
причем упомянутое устройство кодирования звука включает в себя:
модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем осуществления понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала;
модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного упомянутым модулем формирования сигнала понижающего микширования;
первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области;
модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью упомянутого первого модуля преобразования t-f и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования;
второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного упомянутым модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области;
модуль понижающего микширования, сконфигурированный с возможностью осуществлять понижающее микширование многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью упомянутого первого модуля преобразования t-f; и
схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью упомянутого второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного упомянутым модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области, и
упомянутое устройство декодирования звука включает в себя:
разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока сигналов на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования;
схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и находится в частотной области;
модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного упомянутой схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и
модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется упомянутым модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.

13. Система проведения телеконференций, содержащая:
(i) устройство кодирования звука, сконфигурированное с возможностью кодирования входного многоканального звукового сигнала; и
(ii) устройство декодирования звука, сконфигурированное с возможностью декодирования принятого битового потока сигналов в многоканальный звуковой сигнал,
причем упомянутое устройство кодирования звука включает в себя:
модуль формирования сигнала понижающего микширования, сконфигурированный с возможностью формирования первого сигнала понижающего микширования путем понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала;
модуль кодирования сигнала понижающего микширования, сконфигурированный с возможностью кодирования первого сигнала понижающего микширования, сформированного упомянутым модулем формирования сигнала понижающего микширования;
первый модуль преобразования t-f, сконфигурированный с возможностью преобразования входного многоканального звукового сигнала в многоканальный звуковой сигнал частотной области;
модуль вычисления пространственной информации, сконфигурированный с возможностью формирования пространственной информации путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают с помощью упомянутого первого модуля преобразования t-f и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования;
второй модуль преобразования t-f, сконфигурированный с возможностью преобразования первого сигнала понижающего микширования, сформированного упомянутым модулем формирования сигнала понижающего микширования, в первый сигнал понижающего микширования частотной области;
модуль понижающего микширования, сконфигурированный с возможностью осуществлять понижающее микширование многоканального звукового сигнала частотной области, чтобы сформировать второй сигнал понижающего микширования частотной области, причем многоканальный звуковой сигнал получают с помощью упомянутого первого модуля преобразования t-f; и
схему компенсации понижающего микширования, которая вычисляет информацию о компенсации понижающего микширования путем сравнения (i) первого сигнала понижающего микширования, полученного с помощью упомянутого второго модуля преобразования t-f, и (ii) второго сигнала понижающего микширования, сформированного упомянутым модулем понижающего микширования, причем информация о компенсации понижающего микширования является информацией для регулирования сигнала понижающего микширования и первый сигнал понижающего микширования и второй сигнал понижающего микширования находятся в частотной области, и
упомянутое устройство декодирования звука включает в себя:
разделяющий модуль, сконфигурированный с возможностью разделения принятого битового потока сигналов на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования;
схему регулирования понижающего микширования, которая регулирует сигнал понижающего микширования, используя информацию о компенсации понижающего микширования, включенную в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и он находится в частотной области;
модуль формирования многоканального сигнала, сконфигурированный с возможностью формирования многоканального звукового сигнала частотной области из сигнала понижающего микширования, отрегулированного упомянутой схемой регулирования понижающего микширования, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и
модуль преобразования f-t, сконфигурированный с возможностью преобразования многоканального звукового сигнала, который формируется упомянутым модулем формирования многоканального сигнала и находится в частотной области, в многоканальный звуковой сигнал временной области.

14. Способ кодирования звука для кодирования входного многоканального звукового сигнала, причем упомянутый способ содержит этапы, на которых:
формируют первый сигнал понижающего микширования путем понижающего микширования входного многоканального звукового сигнала во временной области, причем первый сигнал понижающего микширования является одним из 1-канального звукового сигнала и 2-канального звукового сигнала;
кодируют первый сигнал понижающего микширования, сформированный на упомянутом этапе, на котором формируют первый сигнал понижающего микширования;
преобразуют входной многоканальный звуковой сигнал в многоканальный звуковой сигнал частотной области и
формируют пространственную информацию путем анализа многоканального звукового сигнала в частотной области, причем многоканальный звуковой сигнал получают при упомянутом преобразовании и пространственная информация является информацией для формирования многоканального звукового сигнала из сигнала понижающего микширования.

15. Способ декодирования звука для декодирования принятого битового потока сигналов в многоканальный звуковой сигнал, причем упомянутый способ содержит этапы, на которых:
разделяют принятый битовый поток сигналов на информационную часть и часть с параметрами, причем информационная часть включает в себя кодированный сигнал понижающего микширования, а часть с параметрами включает в себя (i) пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования и (ii) информацию о компенсации понижающего микширования для регулирования сигнала понижающего микширования;
регулируют сигнал понижающего микширования с использованием информации о компенсации понижающего микширования, включенной в часть с параметрами, причем сигнал понижающего микширования получают из информационной части и он находится в частотной области;
формируют многоканальный звуковой сигнал частотной области из сигнала понижающего микширования, отрегулированного на упомянутом этапе, на котором регулируют, используя пространственную информацию, включенную в часть с параметрами, причем сигнал понижающего микширования находится в частотной области; и
преобразуют многоканальный звуковой сигнал, который формируют на упомянутом этапе, на котором формируют, и находится в частотной области, в многоканальный звуковой сигнал временной области.

16. Машиночитаемый носитель, содержащий команды, которые при исполнении компьютером заставляет компьютер выполнять способ кодирования звука по п.14.

17. Машиночитаемый носитель, содержащий команды, которые при исполнении компьютером заставляют компьютер выполнять способ декодирования звука по п.15.



 

Похожие патенты:

Изобретение относится к аудиокодекам без потерь, а более конкретно, к многоканальному аудиокодеку без потерь, который использует адаптивную сегментацию с возможностью точек произвольного доступа (RAP) и возможностью множества наборов параметров предсказания (MPPS).

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации.

Изобретение относится к вычислительной технике. .

Изобретение относится к области телекоммуникационных систем. .

Изобретение относится к вычислительной технике. .

Изобретение относится к вычислительной технике. .

Изобретение относится к области кодирования аудио сигналов, а именно к области кодирования аудио сигналов с низким битрейтом. .

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала на базе доступного многоканального понижающего микширования и вспомогательных управляющих данных.

Устройство (300, 400) параметрического стереофонического повышающего микширования, генерирующее левый сигнал (206) и правый сигнал (207) из монофонического сигнала (204) понижающего микширования на основе пространственных параметров (205). Упомянутое устройство параметрического стереофонического повышающего микширования характеризуется тем, что содержит средство (310) для предсказания разностного сигнала (311), содержащего разность между левым сигналом (206) и правым сигналом (207), на основе монофонического сигнала (204) понижающего микширования, масштабированного коэффициентом предсказания (321). Упомянутый коэффициент предсказания получается из пространственных параметров (205). Упомянутое устройство (300, 400) параметрического стереофонического повышающего микширования дополнительно содержит арифметическое средство (330) для получения левого сигнала (206) и правого сигнала (207) на основе суммы и разности монофонического сигнала (204) понижающего микширования и упомянутого разностного сигнала (311). 8 н. и 8 з.п. ф-лы, 9 ил.

Изобретение относится к области цифровой связи, а именно к методам сокращения объема данных при их обработке. Предлагаемый способ может быть использован для уменьшения затрат вычислительных ресурсов и требуемого объема запоминающих устройств при создании кодовых книг и реализации алгоритмов поиска опорных векторов в них, в том числе при осуществлении низкоскоростного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение требуемого объема запоминающих устройств и уменьшение затрат вычислительных ресурсов при осуществлении поиска в кодовой книге при векторном квантовании. Поставленная цель достигается построением специальной структуры кодовых книг на основе нейронных сетей с использованием алгоритмов обучения с коррекцией. Поиск реализуют в виде поэтапного иерархического векторного квантования. Результирующий вектор представляет собой сумму кодовых векторов, найденных на каждом этапе. Предлагаемый способ может быть использован для уменьшения затрат вычислительных ресурсов и требуемого объема запоминающих устройств при реализации алгоритмов поиска опорных векторов в кодовой книге. Технический результат - уменьшение затрат вычислительных ресурсов и требуемого объема запоминающих устройств. 7 ил.

Изобретение относится к области аудио обработки, особенно обработки пространственных свойств аудио. Сущность изобретения состоит в том, что устройство (100) для формирования выходного пространственного многоканального аудио сигнала на основе входного аудио сигнала и входного параметра. Устройство (100) включает в себя декомпозитор (110) для разложения входного аудио сигнала на основе входного параметра для получения первой компоненты сигнала и второй компоненты сигнала, отличающихся друг от друга. Кроме того, устройство (100) состоит из блока рендеринга (110) для рендеринга первой компоненты сигнала для получения первого подвергнутого рендерингу сигнала с первым семантическим свойством и для рендеринга второй компоненты сигнала для получения второго подвергнутому рендерингу сигнала с вторым семантическим свойством, отличающимся от первого семантического свойства. Устройство (100) включает в себя процессор (130) для обработки первого и второго подвергнутых рендерингу сигналов для получения выходного пространственного многоканального звукового сигнала. Технический результат - обеспечение высокого качества восприятия при обработке сигналов, создающих фон. 3. н. и 9 з.п. ф-лы, 8 ил.

Изобретение относится к технологиям обработки цифровых сигналов, в частности к способам внедрения цифровой информации в аудиосигнал для целей телекоммуникаций. Способ встраивания цифровой информации в аудиосигнал, включающий выполнение следующих операций: разделяют цифровую информацию на высокоприоритетный и низкоприоритетный потоки, причем высокоприоритетные данные встраивают посредством частотно-селективной эхо-модуляции, а низкоприоритетные данные встраивают посредством шумоподобных сигналов или с использованием цифровой модуляции с многими несущими; разделяют исходный аудиосигнал на первую частотную часть и вторую частотную часть, причем первую частотную часть исходного аудиосигнала модулируют посредством частотно-селективной эхо-модуляции с различными величинами задержки и амплитуды эхо-сигнала, а вторую частотную часть исходного аудиосигнала подают на блок психоакустического анализа на основе психоакустической модели, учитывающей эффект частотного и/или временного маскирования, при этом с помощью блока психоакустического анализа формируют на каждом интервале анализа спектральную маску, отражающую порог слышимости искажений, и данную спектральную маску применяют к сигналу со многими несущими или к шумоподобному сигналу с последующим добавлением полученного сигнала в блоке психоакустического анализа ко второй частотной части исходного аудиосигнала; комбинируют две модулированные частотные части акустического сигнала. 4 з.п. ф-лы, 7 ил.

Изобретение относится к средствам кодирования и декодирования аудиоданных и включения их в цифровой транспортный поток данных. Технический результат заключается в повышении качества звука за счет точного выравнивания каналов аудиоданных относительно друг друга по времени. Принимают на входе кодера множества совмещенных по времени аудиосигналов. Дискретизируют сигналы, совмещенные по времени, чтобы сформировать выровненные кадры аудиоданных предопределенного размера. Назначают идентичные временные метки в единицу времени всем из множества совмещенных аудиосигналов. Включают помеченные таким образом аудиосигналы в цифровой транспортный поток данных. 7 н.з. и 8 з.п. ф-лы, 8 ил.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности иерархического кодирования/декодирования аудио. Способ иерархического кодирования аудио включает разделение коэффициентов частотной области аудио сигнала после модифицированного дискретного косинусного преобразования (МДКП) на множество поддиапазонов кодирования, квантование и кодирование значений огибающей амплитуды поддиапазонов кодирования; распределение битов в каждый поддиапазон кодирования основного уровня, квантование и кодирование коэффициентов частотной области основного уровня, чтобы получить закодированные биты коэффициентов частотной области основного уровня; вычисление значения огибающей амплитуды каждого поддиапазона кодирования остаточного сигнала основного уровня; распределение битов в каждый поддиапазон кодирования расширенного уровня, квантование и кодирование сигнала кодирования расширенного уровня, чтобы получить закодированные биты сигнала кодирования расширенного уровня; мультиплексирование и упаковку закодированных битов значения огибающей амплитуды каждого поддиапазона кодирования, состоящего из коэффициентов частотной области основного уровня и расширенного уровня, закодированных битов частотных коэффициентов основного уровня и закодированных битов сигнала кодирования расширенного уровня, затем передачу на сторону декодирования. 4 н. и 18 з.п. ф-лы, 12 ил., 9 табл.

Изобретение относится к форматам данных мультимедийных приложений, которые используют иерархические слои данных. Техническим результатом является обеспечение возможности обнаружения потери синхронизации между данными улучшающего слоя и данными основного слоя во время декодирования, в то время как количество синхронизирующей информации и контрольной информации в потоке данных улучшающего слоя удерживается низким. Способ кодирования аудио- или видеосигнала, имеет поток битов основного слоя и поток битов улучшающего слоя, относящийся к потоку битов основного слоя. Данные основного слоя и данные улучшающего слоя структурированы в пакеты, и пакеты потока битов основного слоя имеют соответствующие пакеты потока битов улучшающего слоя. Согласно способу осуществляют вычисление контрольной суммы пакета потока битов основного слоя и соответствующего пакета потока битов улучшающего слоя. А также энтропийно кодируют пакет потока битов основного слоя, получая энтропийно кодированный выровненный по байтам пакет основного слоя, начинающийся с синхронизационного слова. 4 н. и 9 з.п. ф-лы, 7 ил.

Шумозаполнитель для создания шумозаполненного спектрального представления звукового сигнала на основе входного спектрального представления звукового сигнала состоит из идентификатора спектральной области, созданного для идентификации спектральных областей входного спектрального представления, отделенных от ненулевых спектральных областей входного спектрального представления, по крайней мере, одной промежуточной спектральной областью для того, чтобы получить идентифицированные спектральные области; и устройства для вставки шума, созданно для того, чтобы выборочно вносить шум в идентифицированные спектральные области для получения шумозаполненного спектрального представления звукового сигнала. Вычислитель параметра шумозаполнения для расчета параметра шумозаполнения на основе квантованного спектрального представления звукового сигнала включает в себя идентификатор спектральной области, как упоминалось выше, и вычислитель значения шума, предназначенный для выборочного рассмотрения ошибок квантования в идентифицированных спектральных областях для расчета параметра шумозаполнения. Соответственно, возможно получить кодированное представление звукового сигнала, представляющее звуковой сигнал. Технический результат - улучшение шумозаполнения кодированного звукового сигнала, ограничивая нежелательные искажения. 6 н. и 9 з.п. ф-лы, 9 ил.

Изобретение относится к аудиосигналам и к устройствам или способам для их получения, передачи, преобразования и воспроизведения. Технический результат заключается в улучшении стереофонического воспроизведения монофонически отображаемого источника звука. Монофонический аудиосигнал любой характеристики направленности - при параметризации угла фи (1205), который заключают главная ось (1203) и направление прихода источника сигнала (1204), фиктивного левого угла раскрыва альфа (1206), а также фиктивного правого угла раскрыва бета (1207), а также характеристики направленности стереофонизируемого монофонического сигнала (представленного в полярных координатах) - подвергается целенаправленно коррекции по разности времен распространения (1210, 1211) и уровней (выводится из 1212 и 1213). В результате получаются М-сигнал и S-сигнал, которые позволяют MS-матрицирование (и тем самым стереофоническое воспроизведение первоначально монофонического аудиосигнала). 6 н. и 8 з.п. ф-лы, 20 ил.

Аудиокодер (100) для кодирования отсчетов аудиосигнала включает в себя первый кодер с временным наложением (алиасингом) (110) для кодирования аудиоотсчетов в первой области кодирования по первому правилу кадрирования, с приложением стартового окна и стопового окна. Аудиокодер (100), далее включающий в себя второй кодер (120) для кодирования отсчетов во второй области кодирования, обрабатывающий задаваемое форматом фрейма число аудиоотсчетов и содержащий ряд аудиоотсчетов интервала стабилизации режима кодирования, применяющий другое, второе, правило кадрирования, при этом фрейм второго кодера (120) является кодированным представлением последовательных во времени аудиоотсчетов, число которых задается форматом фрейма. Аудиокодер (100) включает в себя, кроме того, контроллер (130), выполняющий коммутацию с первого кодера (110) на второй кодер (120) в соответствии с характеристикой аудиоотсчетов и обеспечивающий корректировку второго правила кадрирования при переключении с первого кодера (110) на второй кодер (120) или модифицирующий стартовое окно или стоповое окно первого кодера (110) с сохранением второго правила кадрирования без изменения. Технический результат - улучшение коммутации между множеством рабочих областей при кодировании звука как во временной, так и в частотной областях. 14 н. и 20 з.п. ф-лы, 28 ил.
Наверх