Способ передачи аудиосигналов методом приоритетной передачи пикселей

Авторы патента:

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Владельцы патента RU 2322706:

Т-МОБИЛЕ ДОЙЧЛАНД ГМБХ (DE)

Изобретение относится к способу передачи аудиосигналов между передатчиком и, по меньшей мере, одним приемником методом приоритетной передачи пикселей. Сущность изобретения состоит в том, что аудиосигнал разлагают на определенное число n спектральных составляющих, разложенный аудиосигнал хранят в двухмерной матрице с множеством полей с частотой и временем в качестве размеров и амплитудой в качестве соответственно вносимого значения в поле, затем из каждого отдельного поля и, по меньшей мере, двух соседних с этим полем полей матрицы образуют группы и отдельным группам присваивают приоритет, причем приоритет одной группы выбирают тем выше, чем выше амплитуды групповых значений, и/или чем больше амплитудные отличия значений одной группы, и/или чем ближе группа к актуальному времени, и группы передают на приемник в порядке их приоритета. Технический результат - обеспечение передачи аудиосигналов без потерь даже при малой ширине полосы передачи. 6 з.п. ф-лы, 1 ил.

Изобретение относится к способу передачи аудиосигналов методом приоритетной передачи пикселей, согласно ограничительной части п.1 формулы.

В настоящее время существует множество способов сжатой передачи аудиосигналов. В основном, способы следующие:

- уменьшение частоты дискретизации, например 3 кГц вместо 44 кГц;

- нелинейная передача значений отсчета, например при ISDN-передаче;

- использование предварительно записанных в память акустических последовательностей, например MIDI или голосовая имитация;

- использование моделей Маркова для корректировки ошибок передачи.

Общим для известных способов является то, что даже при более низких скоростях передачи разборчивость речи является удовлетворительной. Однако разные голоса источника создают аналогично звучащие голоса в низине, так что, например, изменения настроения, различимые в нормальном разговоре, передаваться не могут. Из-за этого возникает заметное ограничение качества связи.

Способы сжатия и расширения данных изображения или видеоданных посредством приоритетной передачи пикселей описаны в DE 10113880.6 (PCT/DE 02/00987) и DE 10152612.1 (PCT/DE 02/00995). У этих способов обрабатывают, например, цифровые данные изображения или видеоданные, состоящие из матрицы отдельных точек изображения (пикселей), причем каждый пиксель имеет изменяющееся по времени значение, которое описывает цветовую информацию или информацию яркости пикселя. Согласно изобретению каждому пикселю или каждой пиксельной группе присваивают приоритет, и пиксели в соответствии с их приоритетом размещают в приоритетной матрице. Эта матрица содержит в каждый момент времени отсортированные по приоритету значения пикселей. В соответствии с приоритетом эти пиксели и их используемые для расчета приоритета значения передают или записывают в память. Пиксель получает высокий приоритет, если отличия от соседних с ним пикселей очень велики. Для реконструкции соответственно актуальные значения пикселей отображают на дисплее. Еще не переданные пиксели вычисляют по уже переданным. Эти способы могут применяться, в принципе, и для передачи аудиосигналов.

Задачей изобретения является создание способа передачи аудиосигналов, который работал бы как можно более без потерь даже при малой ширине полосы передачи.

Эта задача решается согласно изобретению посредством признаков п.1 формулы.

Согласно изобретению аудиосигнал прежде всего разлагают на определенное число n спектральных составляющих. Разложенный аудиосигнал хранят в двухмерной матрице с множеством полей с частотой и временем в качестве размеров и амплитудой в качестве соответственно вносимого значения в поле. Затем из каждого отдельного поля и, по меньшей мере, двух соседних с этим полем полей матрицы образуют группы и отдельным группам присваивают приоритет, причем приоритет одной группы выбирают тем выше, чем выше амплитуды групповых значений, и/или чем больше амплитудные отличия значений одной группы, и/или чем ближе группа к актуальному времени. Наконец группы передают на приемник в порядке их приоритета.

Новый способ основан, в основном, на методе Шеннона. В соответствии с этим сигналы можно передавать без потерь, если их дискретизировать с двойной частотой. Это означает, что звук может быть разложен на отдельные синусоидальные колебания разных амплитуды и частоты. Таким образом, за счет передачи отдельных частотных составляющих, включая амплитуды и фазы, акустические сигналы можно однозначно воспроизводить без потерь. При этом используется, в частности, и то, что нередко встречающиеся источники звука, например музыкальные инструменты, человеческие голоса, состоят из резонансных тел, резонансная частота которых не изменяется или изменяется лишь медленно.

Предпочтительные выполнения и усовершенствования изобретения приведены в зависимых пунктах.

Сущность изобретения поясняется чертежом. Чертеж представляет собой трехмерную диаграмму «частота-время» аудиосигнала, которая служит для осуществления изобретения.

Сначала принимается аудиосигнал, который преобразуют в электрические сигналы (в цифровой форме) и разлагают на его частотные компоненты. Это может производиться либо с помощью быстрого преобразования Фурье, или с помощью n-го числа отдельных частотно-избирательных фильтров. После этой операции по каждому значению отсчета и в каждый момент получают частоту и амплитудную величину этой частоты. Амплитудные величины временно хранят в полях двухмерной матрицы.

При этом первый размер матрицы соответствует оси времени (мс), ее второй размер - частоте (Гц). В результате каждое значение отсчета однозначно определяется соответствующей амплитудной величиной и фазой и может храниться в виде мнимого числа в соответствующем поле матрицы. Таким образом аудиосигнал представлен в матрице в виде трех акустических размеров (параметров): время, например, в миллисекундах (мс), рецептивно воспринимаемое как продолжительность в качестве первого размера матрицы, частота в герцах (Гц), рецептивно воспринимаемая как высота звука в качестве второго размера, и энергия (или интенсивность) сигнала, рецептивно воспринимаемая как громкость или интенсивность звучания, сохраняемая в соответствующем поле массива в виде цифрового показателя.

Аналогично способу приоритизации пиксельных групп при кодировании изображения/видеосигнала образуют группы из соседних значений и приоритизируют их. Каждое поле само по себе образует, по меньшей мере, с одним, но предпочтительно с несколькими соседними полями группу. Группы состоят из позиционного значения, характеризуемого временем и частотой, амплитудного значения окружающих значений в соответствии с заданной формой. На чертеже показаны две группы полей (группа 1 и группа 2). Каждая группа состоит из 9 смежных полей.

Каждой группе присвоен приоритет. Имеются разные возможности присвоения приоритетов.

Очень высокий приоритет могут получить те группы, которые лежат близко к актуальному времени. Если актуальное время соответствует, например, 521 мс на оси времени диаграммы, то группа 1 приобретает более высокий приоритет, чем группа 2, потому что группа 1 располагается ближе к актуальному времени.

В качестве альтернативы (или дополнительно) очень высокий приоритет получают те группы, амплитудные значения которых являются очень большими по сравнению с другими группами. Так, например, если группа 2 имеет большие амплитудные значения, чем группа 1, то в этом случае группа 2 получает более высокий приоритет, чем группа 1.

В качестве альтернативы (или дополнительно) очень высокий приоритет могут получить те группы, у которых амплитудные значения в пределах группы сильно различаются между собой. Как показано в примере на чертеже, амплитудные значения в пределах группы 2 различаются друг от друга в большей степени, чем в пределах группы 1. Следовательно, группа 2 получила бы больший приоритет, чем группа 1.

Пиксельные группы сортируются по убыванию приоритета и в этой последовательности передаются в память или на приемник.

В соответствии с описанным видом приоритизации (амплитуда, близкая к времени позиция и амплитудные расхождения смежных величин) происходит прием значений отдельных групп приемником.

В приемнике группы снова заносятся в соответствующую матрицу, в результате чего диаграмма «частота-время» в приемнике имеет в оптимальном случае точно такой же вид, как и в передатчике. Чем больше принимается групп, тем точнее реконструкция. Групповые значения, которые еще не были переданы, рассчитываются с помощью интерполяции на основе передаваемых значений матрицы. На основе полученной таким образом матрицы затем формируют в приемнике соответствующий аудиосигнал, который в последующем может быть преобразован в звуковой.

Прежде всего звук записывают, преобразуют в электрические сигналы и разлагают на его частотные составляющие. Это может происходить либо методом FFT (быстрое преобразование Фурье), либо посредством n-го числа отдельных частотно-избирательных фильтров. При применении n-го числа отдельных фильтров каждый из них воспринимает только одну отдельную частоту или одну узкую полосу частот (подобно волоскам в человеческом ухе). Таким образом, в любой момент времени имеется частота и амплитудное значение этой частоты. При этом число n может в соответствии со свойствами оконечного устройства принимать разные значения. Чем больше n, тем лучше можно воспроизвести аудиосигнал. Таким образом, n является параметром, с помощью которого можно масштабировать качество передачи аудиосигналов.

Амплитудные значения временно хранят в полях двухмерной матрицы.

При этом первый размер матрицы соответствует оси времени, а второй - частоте. Тем самым каждое дискретное значение однозначно определено соответствующим амплитудным значением и фазой и может храниться в соответствующем поле матрицы в виде воображаемого числа. Речевой сигнал представлен в матрице, таким образом, по трем акустическим размерам (параметрам): времени, например, в миллисекундах (мс), рецептивно воспринимаемом как продолжительность в качестве первого размера матрицы, частоте в герцах (Гц), рецептивно воспринимаемой как высота звука в качестве второго размера матрицы, и энергии (или интенсивности) сигнала, рецептивно воспринимаемой как громкость или интенсивность, сохраняемая в виде числового значения в соответствующем поле матрицы.

По сравнению с DE 10113880.6 и DE 10152612.1, например, частота соответствует высоте изображения, время - ширине изображения, а амплитуда аудиосигнала (интенсивность) - цветовому значению.

Аналогично способу приоритета пиксельных групп при кодировании изображения/видеосигнала из соседних значений образуют группы по приоритетам. Каждое поле само по себе образует вместе с, по меньшей мере, одним, преимущественно, однако, несколькими соседними полями группу. Группы состоят из позиционного значения, определяемого временем и частотой, амплитудного значения в позиционном значении и амплитудных значений окружающих значений в соответствии с предварительно установленной формой (фиг.2 в DE 10113880.6 и DE 10152612.1). При этом очень высокий приоритет получают, в частности, группы, которые лежат близко к актуальному времени и/или амплитудные значения которых очень велики по сравнению с другими группами, и/или у которых амплитудные значения внутри группы сильно отличаются друг от друга. Значения пиксельных групп сортируют с понижением и хранят или передают в этом порядке.

Ширина матрицы (ось времени) имеет преимущественно лишь ограниченную протяженность (например, 5 секунд), т.е. обрабатываются всегда лишь отрезки сигнала длиной, например, 5 секунд. По истечении этого времени (например, 5 секунд) матрицу заполняют значениями следующего отрезка сигнала.

В соответствии с описанными выше параметрами приоритета (амплитуда, близкое по времени положение и отличия по амплитуде от соседних значений) в приемнике принимают значения отдельных групп.

В приемнике группы снова вводят в соответствующую матрицу. Согласно DE 10113880.6 и DE 10152612.1 затем из переданных групп можно снова создать трехмерное спектральное представление. Чем больше групп принимается, тем точнее реконструкция. Еще не переданные значения матрицы вычисляют путем интерполяции по уже переданным значениям матрицы. Из полученной таким образом матрицы вырабатывают затем в приемнике соответствующий аудиосигнал, который может быть затем преобразован в звук.

Для синтезирования аудиосигнала можно использовать, например, n частотных генераторов, сигналы которых суммируют в один выходной сигнал. За счет этой параллельной установки n генераторов обеспечивается хорошая возможность масштабирования. К тому же тактовую частоту можно резко уменьшить за счет параллельной обработки, так что благодаря меньшему энергопотреблению повышается время воспроизведения в мобильных оконечных устройствах. Для параллельного использования можно использовать, например, матрицы FPGA или ИС ASIC простой конструкции.

Описанный способ не ограничен аудиосигналами. Способ может найти эффективное применение, в частности, везде там, где используются несколько датчиков (звуковые, световые датчики, датчики прикосновения и т.д.), непрерывно измеряющих сигналы, которые могут быть затем представлены в матрице (n-го порядка).

Преимущества по сравнению с прежними системами заключаются в гибкой применимости при повышенных степенях сжатия. За счет использования матрицы, питаемой из различных источников, автоматически получают синхронизацию различных источников. Соответствующая синхронизация должна быть гарантирована в традиционных способах посредством особых протоколов или мер. В частности, при передаче видеосигналов с, большим временем прохождения, например при связи через спутник, где звук и изображение передаются по разным каналам, нередко в глаза бросается не синхронность движения губ и речи. Это может быть устранено описанным способом.

Поскольку тот же основной принцип приоритезирующей передачи пиксельных групп можно использовать для речи, изображения и передачи видеосигнала, может быть использован сильный синергетический эффект при внедрении. Кроме того, таким образом может происходить простая синхронизация речи и изображений. Кроме того, можно произвольно масштабировать между разрешением изображения и аудиосигнала.

Если рассматривать отдельную передачу аудиосигнала новым способом, то происходит естественное воспроизведение речи, поскольку типичные для каждого человека частотные составляющие (группы) передаются с высшим приоритетом и, тем самым, без потерь.

1. Способ передачи аудиосигналов между передатчиком и, по меньшей мере, одним приемником методом приоритетной передачи пикселей, отличающийся тем, что включает в себя следующие этапы:

а) разложение аудиосигнала на определенное число n спектральных составляющих;

б) хранение разложенного аудиосигнала в двухмерной матрице с множеством полей с частотой и временем в качестве размеров и амплитудой в качестве соответственно вносимого значения в поле;

в) образование групп из каждого отдельного поля и, по меньшей мере, двух соседних с этим полем полей матрицы;

г) присвоение приоритета отдельным группам, причем приоритет одной группы выбирают тем выше, чем выше амплитуды групповых значений и/или чем больше амплитудные отличия значений одной группы и/или чем ближе группа к актуальному времени;

д) передачу групп в порядке их приоритета на приемник.

2. Способ по п.1, отличающийся тем, что весь аудиосигнал имеет вид аудиофайла, который обрабатывают и передают как единое целое.

3. Способ по п.1, отличающийся тем, что обрабатывают и передают только соответственно часть аудиосигнала.

4. Способ по одному из пп.1-3, отличающийся тем, что аудиосигнал разлагают на его спектральные составляющие методом быстрого преобразования Фурье.

5. Способ по п.1, отличающийся тем, что аудиосигнал разлагают на его спектральные составляющие посредством определенного числа n частотно-избирательных фильтров.

6. Способ по п.1, отличающийся тем, что в приемнике переданные в зависимости от своего приоритета группы присваивают соответствующей матрице, причем еще не переданные значения матрицы вычисляют путем интерполяции по уже имеющимся значениям.

7. Способ по п.6, отличающийся тем, что из имеющихся в приемнике и вычисленных значений вырабатывают электрический сигнал и преобразуют его в аудиосигнал.

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи. .

Усовершенствованное преобразование спектра/свертка в области поддиапазонов // 2251795

Изобретение относится к способу и устройству в области высокочастотного восстановления, применяемого в системах кодирования аудиосигналов. .

Способ дикторонезависимого распознавания звуков речи // 2234746

Изобретение относится к распознаванию речи. .

Способ осуществления машинной оценки качества аудиосигналов // 2232434

Изобретение относится к машинной оценке качества передачи аудиосигналов. .

Способ и устройство кодирования информации, способ и устройство для декодирования информации, носитель для записи информации // 2221329

Изобретение относится к области радиотехники, в частности к кодированию информации для расширения формата кодируемых сигналов. .

Способ кодирования речи (варианты), кодирующее и декодирующее устройство // 2214048

Изобретение относится к кодированию и декодированию речи. .

Способ последующей обработки с высокой разрешающей способностью для речевого декодера // 2199157

Изобретение относится к речевым декодерам, применяемым в радиоприемниках систем радиосвязи с подвижными объектами. .

Способ сжатия изолированных слов // 2180974

Изобретение относится к цифровой обработке речи. .

Способ выделения основного тона // 2174714

Изобретение относится к технике речевого анализа. .

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии.

Устройство и способ определения величины шага квантователя // 2329549

Изобретение относится к аудиокодерам, в частности к аудиокодерам, в которых осуществляется преобразование временного представления в спектральное представление

Устройство и способ обработки многоканального сигнала // 2332727

Изобретение относится к звуковым кодерам и в особенности к звуковым кодерам на основе преобразования временного представления в спектральное представление

Аудиокодирование // 2335809

Изобретение относится к аудиокодированию и, в частности, к аудиокодированию, которое позволяет кодировать аудиосигналы с коротким временем задержки

Устройство и способ определения оценочного значения // 2337414

Изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала

Индивидуальное формирование каналов для схем всс и т.п. // 2339088

Кодирование звука с различными длительностями кадра кодирования // 2344493

Изобретение относится к способу поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, согласно которому предлагается определять на основе характеристик звукового сигнала по меньшей мере один параметр управления

Способ создания представления результата вычисления, линейно зависимого от квадрата значения // 2375743

Изобретение относится к вычислительной технике и может быть использовано в устройствах кодирования звука

Многоканальный кодер // 2382419

Изобретение относится к многоканальным кодерам, например к многоканальным звуковым кодерам, использующим параметрическое описание пространственного звука

Кодер, декодер, способ кодирования и способ декодирования // 2387024

Изобретение относится к устройству кодирования, устройству декодирования, способу кодирования и способу декодирования

Способы и устройства для кодирования и декодирования стереосигнала // 2392671

Изобретение относится к способам кодирования данных, например к способу кодирования аудиоданных и/или видеоданных, используя переменные углы поворота для компонентов данных