Устройство и способ для генерации многоканального сигнала, использующие обработку голосового сигнала

Авторы патента:

КАСТНЕР Торстен (DE)

УХЛЕ Кристиан (DE)

ХЕРРЕ Юрген (DE)

ХЕЛЛЬМУТ Оливер (DE)

ПОПП Харальд (DE)

H04S5/02 - псевдочетырехканального типа, например, в которых сигналы заднего канала извлекаются из двухканальных стереосигналов

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Владельцы патента RU 2461144:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к обработке звукового сигнала, в частности к производству нескольких выходных каналов из меньшего количества входных каналов, например, из одного (моно) канала или двух (стерео) входных каналов. Техническим результатом является повышение качества производства многоканального сигнала, включающего ряд выходных каналов. Указанный результат достигается тем, что устройство для генерирования многоканального сигнала (10), включающего число выходных каналов большее, чем число входных каналов, используется микшер для повышающего микширования входного сигнала, чтобы сформировать сигнал прямого канала и сигнал канала окружения. Речевой детектор (18) предоставлен для того, чтобы обнаружить часть входного сигнала, сигнала прямого канала или сигнала канала окружения, в котором встречаются речевые части. Основанный на этом обнаружении модификатор сигнала (20) изменяет входной сигнал или сигнал канала окружения, чтобы ослабить речевые части в сигнале канала окружения, тогда как такие речевые части в сигнале прямого канала ослабляются в меньшей степени или не ослабляются совсем. Выходные средства сигнала громкоговорителя (22) затем отображают сигналы прямого канала и сигналы канала окружения на сигналах громкоговорителя, которые связаны с определенной схемой воспроизведения, такой как, например, схема 5.1. 3 н. и 20 з.п. ф-лы, 13 ил.

Данное изобретение относится к сфере обработки звукового сигнала и, в частности, к производству нескольких выходных каналов из меньшего количества входных каналов, например, из одного (моно) канала или двух (стерео) входных каналов.

Многоканальный звуковой материал становится все более популярным. Это привело к тому, что многие конечные пользователи обладают многоканальными системами воспроизведения. Это происходит, главным образом, потому, что DVD становятся все более популярными и что, следовательно, многие пользователи DVD обладают 5.1 многоканальным оборудованием. Системы воспроизведения такого рода обычно состоят из трех громкоговорителей L (левый), С (центральный) и R (правый), которые обычно устанавливаются перед пользователем, и двух громкоговорителей Ls и Rs, которые устанавливаются позади пользователя, и обычно одного LFE-канала, который также называется каналом низкочастотного эффекта или сабвуфером. Такое расположение каналов показано на Фиг.5b и 5с. В то время как громкоговорители L, С, R, Ls, Rs должны быть размещены относительно пользователя, как показано на Фиг.10 и 11, чтобы пользователь получал, по возможности, наилучшее качество звучания, расположение канала LFE (не показанное на Фиг.5b и 5с) не так важно, поскольку ухо не может осуществлять локализацию на таких низких частотах, и канал LFE может, следовательно, быть расположен везде, где, несмотря на его значительные размеры, он не мешает.

Такая многоканальная система имеет несколько преимуществ по сравнению с обычным стереовоспроизведением, являющимся двухканальным воспроизведением, как примерно показано на фиг.5а.

Даже вне оптимального центрального положения прослушивания улучшенная стабильность переднего прослушивания, которая также называется «переднее отображение», достигается благодаря центральному каналу. В результате получается большая «зона наилучшего восприятия»; «зона наилучшего восприятия» представляет оптимальное положение прослушивания.

Дополнительно слушателю предоставляется улучшенная возможность «изыскания» звукового окружения благодаря двум обратным громкоговорителям Ls и Rs.

Однако существует огромное количество звукового материала, имеющегося у пользователей, или широко доступного, который существует только как стереоматериал, то есть включает только два канала, а именно левый канал и правый канал. Компакт-диски - типичные звуковые носители для стереосигналов такого типа.

ITU (Международный союз по телекоммуникациям) рекомендует два варианта проигрывания стереоматериала такого типа, используя 5.1 многоканальное звуковое оборудование.

Первый вариант - проигрывание левого и правого каналов с использованием левых и правых громкоговорителей многоканальной системы воспроизведения. Однако это решение имеет тот недостаток, что уже не используется множество громкоговорителей, то есть что имеющийся центральный громкоговоритель и два обратных громкоговорителя преимущественно не используются.

Другой вариант преобразовывает эти два канала в многоканальный сигнал. Это может быть сделано во время воспроизведения или посредством специальной предварительной обработки, которая преимущественно использует все шесть имеющихся громкоговорителей 5.1 системы воспроизведения и, таким образом, приводит к улучшенному качеству прослушивания, когда два канала повышающе микшируются до пяти или шести каналов безошибочным способом.

Второй вариант, то есть использование всех громкоговорителей многоканальной системы, будет иметь преимущества по сравнению с первым решением, только тогда, когда не будет никаких ошибок повышающего микширования. Ошибки повышающего микширования такого рода могут быть особенно тревожными, когда сигналы для обратных громкоговорителей, которые также известны как сигналы окружения (окружающей среды), не могут быть произведены безошибочным способом.

Один способ осуществления этого так называемого процесса повышающего микширования известен под ключевым словом «концепция прямого окружения». Источники прямого звука воспроизводятся тремя передними каналами таким образом, что они воспринимаются пользователем в том же самом положении, что и в оригинальной двухканальной версии. Оригинальная двухканальная версия схематично показана на фиг.5 с использованием различных барабанных инструментов.

Фиг.5b показывает микшированную с повышением версию концепции, где все оригинальные источники звука, то есть барабанные инструменты, воспроизводятся тремя передними громкоговорителями L, С и R, где дополнительно производятся специальные сигналы окружения двумя обратными громкоговорителями. Термин «источник прямого звука», таким образом, используется для описания тона, прибывающего только и непосредственно из дискретного источника звука, такого как, например, барабанный инструмент или другой инструмент, или вообще специальный звуковой объект, как примерно показано на фиг.5а, для барабанного инструмента. В таком источнике прямого звука нет никаких дополнительных тонов подобных тем, например, которые вызываются отражениями от стен и т.д. В этом сценарии, звуковые сигналы, произведенные двумя обратными громкоговорителями Ls, Rs на фиг.5b, состоят только из сигналов окружения, которые могут присутствовать в оригинальной записи или нет. Сигналы окружения этого вида не принадлежат одиночному источнику звука, но способствуют воспроизведению комнатной акустики звукозаписи и, таким образом, приводят к так называемому «изысканию» впечатления слушателем.

Другая альтернативная концепция, называемая внутриполостной концепцией («в диапазоне»), схематично показана на фиг.5с. Каждый тип звука, то есть источники прямого звука и тоны типа звуков окружения, все размещены вокруг слушателя. Положение тона не зависит от его характеристики (источники прямого звука или тоны типа звуков окружения), а зависит только от определенной конструкции алгоритма, что примерно показано на фиг.5с. Таким образом, на фиг.5с было определено при помощи алгоритма повышающего микширования, что два инструмента 1100 и 1102 размещены сбоку относительно слушателя, тогда как два инструмента 1104 и 1106 размещены перед пользователем. В результате этого два обратных громкоговорители Ls, Rs теперь также содержат части двух инструментов 1100 и 1102 и больше не являются только тонами, подобными звукам окружения, как было на фиг.5b, где те же самые инструменты все размещены перед пользователем.

Экспертная публикация К.Авендано и Дж.М.Джота: «Извлечение и синтез окружения из стереосигналов для многоканального повышающего микширования звука», IEEE (Институт инженеров по электротехнике и радиоэлектронике) Международная Конференция по акустике, обработке речи и сигналов, ICASSP (Международная конференция по акустике и обработке речи и сигналов, МКАОРС) 02, Орландо, Флорида, май 2002 г. раскрывает частотную методику идентификации и извлечения информации об окружении в звуковых стереосигналах. Эта концепция основана на вычислении межканальной когерентности и нелинейной функции отображения, которая позволяет определять частотно-временные области в стереосигнале, который, главным образом, состоит из компонентов окружения. Сигналы окружения тогда синтезируются и используются для сохранения обратных каналов или «окружающих» каналов Ls, Rs (Фиг.10 и 11) многоканальной системы воспроизведения.

В экспертной публикации Р. Ирвана и Рональда М. Аарца «Способ преобразования стереозвука в многоканальный звук», Труды 19^-ой Международной Конференции AES (Общество инженеров-звукотехников), Шлос Элмау, Германия, 21-24 июня, страницы 139-143, 2001 г., где представлен способ преобразования стереосигнала в многоканальный сигнал. Сигнал для окружающих каналов вычисляется посредством методики взаимной корреляции. Принципиальный компонентный анализ (РСА) используется для вычисления вектора, указывающего направление доминирующего сигнала. Этот вектор затем отображается из двухканального представления в трехканальное представление, чтобы произвести три передних канала.

Все известные методики различным способом пытаются извлечь сигналы окружения из оригинальных стереосигналов или даже синтезировать их из шумовой или дальнейшей информации, где информация, которая не находится в стереосигнале, может использоваться для синтезирования сигналов окружения. Однако в заключение это - все об извлечении информации из стереосигнала и/или о подаче в сценарий воспроизведения информации, которая не присутствует в явной форме, так как обычно доступен только двухканальный стереосигнал и, возможно, дополнительная информация и/или метаинформация.

Впоследствии будут детализированы дальнейшие известные способы повышающего микширования, работающие без контрольных параметров. Способы повышающего микширования этого вида также называются слепыми способами повышающего микширования.

Большинство методик этого типа для генерации так называемого сигнала псевдостереофонии из моноканала (то есть повышающее микширование 1 к 2) не являются адаптивными к сигналу. Это означает, что они будут всегда обрабатывать моносигнал таким же способом, независимо от содержания моносигнала. Системы этого типа часто работают, используя простые структуры фильтрации и/или временные задержки, чтобы декоррелировать произведенные сигналы, например, посредством обработки одноканального входного сигнала парой так называемых дополнительных гребенчатых фильтров, как описано в работе М. Шредера «Искусственный стереофонический эффект, полученный при использовании одиночного сигнала», JAES (Журнал Общества инженеров-звукотехников), 1957 г. Другой краткий обзор систем этого типа может быть найден в работе К.Фоллера "Переработанная псевдостереофония", Труды 118^-ой Конвенции AES (Общество инженеров-звукотехников), 2005 г.

Дополнительно, существует методика извлечения сигнала окружения посредством использования неотрицательной матричной факторизации, в частности в контексте повышающего микширования 1-к-N; N - больше двух. Здесь частотно-временное распределение (TFD) входного сигнала вычисляется, например, посредством кратковременного преобразования Фурье. Вычисленное значение TFD-компонентов прямого сигнала получается посредством метода числовой оптимизации, который называется также неотрицательной матричной факторизацией. Вычисленное значение TFD-сигнала окружения определяется посредством вычисления различия TFD входного сигнала и вычисленным значением TFD для прямого сигнала. Повторный синтез или синтез временного сигнала окружения выполняется посредством использования фазовой спектрограммы входного сигнала. Дополнительная постобработка выполняется факультативно, чтобы улучшить впечатление прослушивания произведенного многоканального сигнала. Этот способ подробно описан в работе К.Уле, А.Уолтера, О.Хеллмута и Дж.Херре «Отделение звуков окружения от монозвукозаписей посредством неотрицательной матричной факторизации», Труды 30^-ой Конференции AES (Общество инженеров-звукотехников), 2007 г.

Существуют различные методики повышающего микширования стереозаписей. Одна методика использует матричные декодеры. Матричные декодеры известны под ключевым названием система Долби Про Лоджик II, DTS (окружающий звук цифрового (домашнего) театра) Нео: 6 или Харман Кар дон/Лексикон Лоджик 7 и содержатся почти в каждом звуковом/видео приемнике, продаваемом в настоящее время. Как побочный продукт их намеченных функциональных возможностей, эти методы также могут выполнять слепое повышающее микширование. Эти декодеры используют межканальные различия и адаптивные к сигналам контрольные механизмы для производства многоканальных выходных сигналов.

Как уже было сказано, методики частотных областей, описанные Авердано и Джотом, используются для идентификации и извлечения информации об окружении в звуковых стереосигналах. Этот способ основан на вычислении индекса межканальной когерентности и нелинейной функции отображения, таким образом позволяя определять частотно-временные области, которые состоят, главным образом, из компонентов сигнала окружения. Сигналы окружения затем синтезируются и используются для подачи в окружающие каналы многоканальной системы воспроизведения.

Один компонент процесса прямого / окружающего повышающего микширования извлекает сигнал окружения, который подается на два обратных канала Ls, Rs. Существуют определенные требования к сигналу, чтобы он мог использоваться как окружающий временной сигнал в контексте процесса прямого / окружающего повышающего микширования. Одно необходимое условие заключается в том, что соответствующие части источников прямого звука не должны быть слышимыми, чтобы слушатель мог надежно локализовать источники прямого звука, находящиеся перед ним. Это будет иметь особое значение, когда звуковой сигнал будет содержать речь или один или несколько различимых дикторов. Речевые сигналы, которые, напротив, произведены толпой людей, не обязательно должны мешать слушателю, когда они не расположены перед слушателем.

Если определенное количество речевых компонентов должно быть воспроизведено обратными каналами, это приведет к тому, что положение диктора или нескольких дикторов будет смещено с позиции спереди на позицию сзади или на определенное расстояние от пользователя или даже позади пользователя, что приведет к очень большим помехам при прослушивании звука. В частности, в случае, когда одновременно представлен звуковой и видеоматериал, такой как, например, в кинотеатре, это особенно портит впечатление.

Одно основное условие для тонового сигнала в кино (саундтрек), необходимое для впечатления прослушивания, соответствовать впечатлению, произведенному кинокартинами. Слышимые хинты относительно локализации, таким образом, не должны противоречить видимым хинтам относительно локализации. Следовательно, когда диктор должен быть виден на экране, соответствующий речевой сигнал должен также быть помещен перед пользователем.

То же самое касается всех других звуковых сигналов, то есть это не обязательно ограничено ситуациями, когда звуковые сигналы и видео сигналы представлены одновременно. Другие звуковые сигналы этого типа, например, сигналы радиовещания или аудиокниги. Слушатель привыкает к речи, производимой передними каналами, и, вероятно, обернется, чтобы восстановить свое обычное впечатление, когда внезапно речь начнет поступать из обратных каналов.

Чтобы улучшить качество сигналов окружения, немецкая заявка на патент, DE 102006017280.9-55, предлагает подвергнуть извлеченный сигнал окружения переходному обнаружению и вызвать переходное подавление без значительных потерь энергии в сигнале окружения. Теперь выполняется замена сигнала, чтобы заменить области, включая переходные процессы, соответствующими сигналами без переходных процессов, однако приблизительно с той же самой энергией.

Документы Конвенции AES (Общество инженеров-звукотехников) «Ориентация в пространстве, основанная на дескрипторе», Дж.Монсо, Ф.Паше и др., 28-31 мая 2005 г., Барселона, Испания, информируют об основанной на дескрипторе ориентации в пространстве, где обнаруженная речь должна быть ослаблена на основе извлеченных дескрипторов посредством переключения только центрального канала, чтобы он был немым. Здесь используется речевой экстрактор. Рабочее время и время переходного процесса используется для модификаций сглаживания выходного сигнала. Таким образом, многоканальная фонограмма (саундтрек) без речи может быть извлечена из кинофильма. Когда определенная стереореверберационная характеристика присутствует в оригинальном стереосигнале понижающего микширования, это приводит к тому, что инструмент повышающего микширования распределяет эту реверберацию каждому каналу за исключением центрального канала так, что реверберация становится слышна. Чтобы предотвратить это, динамический контроль уровня выполняется для L, R, Ls и Rs, чтобы уменьшить реверберацию голоса.

Задача данного изобретения - обеспечить концепцию производства многоканального сигнала, включающего ряд выходных каналов, которая с одной стороны является гибкой, а с другой стороны обеспечивает высококачественный продукт.

Эта цель достигается устройством для производства многоканального сигнала в соответствии с п.1, способом производства многоканального сигнала в соответствии с п.23 или компьютерной программой в соответствии с п.24.

Данное изобретение основано на обнаружении того факта, что речевые компоненты в обратных каналах, то есть в каналах окружения, подавляются, чтобы обратные каналы были свободны от речевых компонентов. Входной сигнал, имеющий один или несколько каналов, является микшированным с повышением, чтобы обеспечить канал прямого сигнала и обеспечить канал сигнала окружения или, в зависимости от осуществления, уже измененный канал сигнала окружения. Речевой детектор используется для того, чтобы искать речевые компоненты во входном сигнале, прямом канале или канале окружения, где речевые компоненты этого типа могут, например, встречаться во временной и/или частотной части или также в компонентах ортогонального разрешения. Модификатор сигнала предназначен для того, чтобы модифицировать прямой сигнал, произведенный посредством повышающего микширования, или копию входного сигнала, чтобы подавить там речевые компоненты сигнала, тогда как компоненты прямого сигнала ослабляются в меньшей степени или совсем не ослабляются в соответствующих частях, которые включают компоненты речевого сигнала. Такой измененный сигнал канала окружения затем используется для производства сигналов громкоговорителя для соответствующих громкоговорителей.

Однако когда входной сигнал был изменен, сигнал окружения, произведенный посредством повышающего микширования, используется непосредственно, так как речевые компоненты там уже подавлены и так как в основном звуковом сигнале также были подавлены речевые компоненты. В этом случае, однако, когда процесс повышающего микширования также производит прямой канал, прямой канал вычисляется не на основе измененного входного сигнала, а на основе неизмененного входного сигнала, чтобы достигнуть выборочного подавления речевых компонентов, только в канале окружения, а не в прямом канале, где речевые компоненты явно желательны.

Это предотвращает возможность воспроизведения речевых компонентов в обратных каналах или каналах сигнала окружения, которые иначе будут мешать или даже создавать помехи слушателю. Следовательно, изобретение обеспечивает размещение диалогов и другой речи, понятной для слушателя, то есть всего того, что имеет спектральную характеристику, типичную для речи, перед слушателем.

Те же самые требования относятся и к внутриполостной концепции («в диапазона»), в которой также желательно, чтобы прямые сигналы не поступали в обратные каналы, а размещались перед слушателем и, возможно, сбоку от слушателя, но не позади слушателя, как показано на фиг.5с, где компоненты прямого сигнала (и компоненты сигнала окружения также) все размещены перед слушателем.

В соответствии с изобретением зависящая от сигнала обработка выполняется, чтобы удалить или подавить речевые компоненты в обратных каналах или в сигнале окружения. Здесь выполняются два основных шага, а именно обнаружение речевых проявлений и подавление речи, где обнаружение речевых проявлений может быть осуществлено во входном сигнале, в прямом канале или в канале окружения, и где подавление речи может быть осуществлено непосредственно в канале окружения или косвенно во входном сигнале, который потом будет использоваться для производства канала окружения, где этот измененный входной сигнал не используется для производства прямого канала.

Изобретение, таким образом, достигает того, что когда многоканальный окружающий сигнал производится из звукового сигнала, имеющего меньше каналов и содержащего речевые компоненты, это гарантирует тот факт, что получающиеся сигналы для обратных каналов (с точки зрения пользователя) включают минимальное количество речи, чтобы сохранить оригинальное тональное изображение перед пользователем (переднее изображение). Когда конкретное количество речевых компонентов должно быть воспроизведено обратными каналами, положение диктора должно быть размещено вне передней области, где-нибудь между слушателем и передними громкоговорителями или, в крайних случаях, даже позади слушателя. Это приведет к большим помехам при прослушивании, в частности, когда звуковые сигналы представлены одновременно с визуальными сигналами, как, например, в кинофильмах. Таким образом, многие многоканальные фонограммы (саундтреки) кинофильмов едва ли содержат какие-то речевые компоненты в обратных каналах. В соответствии с изобретением компоненты речевого сигнала обнаруживаются и подавляются там, где это уместно.

Предпочтительные осуществления данного изобретения будут детализированы впоследствии со ссылкой на приложенные чертежи, где:

Фиг.1 показывает блок-схему осуществления данного изобретения;

Фиг.2 показывает связь частотно/временных частей анализируемого сигнала и канала окружения или входного сигнала для рассмотрения «соответствующих частей»;

Фиг.3 показывает модификацию сигнала окружения в соответствии с предпочтительным осуществлением данного изобретения;

Фиг.4 показывает взаимодействие между речевым детектором и модификатором сигнала окружения в соответствии с другим осуществлением данного изобретения;

Фиг.5а показывает сценарий стереовоспроизведения, включая прямые источники (барабанные инструменты) и рассеянные компоненты;

Фиг.5b показывает сценарий многоканального воспроизведения, где все источники прямого звука воспроизводятся передними каналами, а рассеянные компоненты воспроизводятся всеми каналами, этот сценарий также называется концепцией прямого окружения;

Фиг.5с показывает сценарий многоканального воспроизведения, где источники дискретного звука могут быть также, по крайней мере, частично воспроизведены обратными каналами и где каналы окружения не воспроизводятся обратными громкоговорителями или воспроизводятся в меньшей степени, чем на фиг.5b;

Фиг.6а показывает другое осуществление, включающее обнаружение речи в канале окружения и модификацию канала окружения;

Фиг.6b показывает осуществление, включающее обнаружение речи во входном сигнале и модификацию канала окружения;

Фиг.6с показывает осуществление, включающее обнаружение речи во входном сигнале и модификацию входного сигнала;

Фиг.6d показывает другое осуществление, включающее обнаружение речи во входном сигнале и модификацию в сигнале окружения; модификация настраивается специально на речь;

Фиг.7 показывает осуществление, включающее диапазон вычисления коэффициентов усиления после диапазона, основанного на полосно-пропускающем сигнале /сигнале поддиапазона; и

Фиг.8 показывает детальную иллюстрацию блока вычисления усиления фиг.7.

Фиг.1 показывает блок-схему устройства для производства многоканального сигнала 10, который показан на фиг.1 как включающий левый канал L, правый канал R, центральный канал С, канал LFE, обратный левый канал LS и обратный правый канал RS. Было указано, что данное изобретение, однако, также применимо для любых представлений, кроме 5.1 представлений, выбранных здесь, таких как, например, 7.1 представления или даже 3.0 представления, где только левый канал, правый канал и центральный канал произведены здесь. Многоканальный сигнал 10, включающий, например, шесть каналов, показанных на фиг.1, производится из входного сигнала 12 или «х», включающего число входных каналов, число входных каналов, равно 1 или больше, чем 1, например, равно 2, когда вводится стереопонижающее микширование. Однако обычно число выходных каналов больше, чем число входных каналов.

Устройство, показанное на фиг.1, включает повышающий микшер 14 для повышающего микширования входного сигнала 12, чтобы произвести, по крайней мере, канал прямого сигнала 15 и канал сигнала окружения 16 или, возможно, измененный канал сигнала окружения 16'. Дополнительно, предоставлен речевой детектор 18, который использует входной сигнал 12 как анализируемый сигнал, как показано в 18а, или использует канал прямого сигнала 15, как показано в 18b, или использует другой сигнал, который подобен входному сигналу 12, относительно временного / частотного проявления или относительно его характеристики, касающейся речевых компонентов. Речевой детектор обнаруживает часть входного сигнала, прямой канал или, например, канал окружения, как показано в 18с, где присутствует речевая часть. Эта речевая часть может быть существенной речевой частью, то есть, например, речевой частью, речевая характеристика которой была получена в зависимости от определенного качественного или количественного показателя; качественный показатель и количественный показатель превышают порог, который также называется порогом обнаружения речи.

Речевая характеристика с количественным показателем квантуется посредством использования числового значения, и это числовое значение сравнивается с порогом. С качественным показателем решение принимается для каждой части, где решение может приниматься относительно одного или нескольких критериев для принятия решения. Критерии для принятия решения этого вида могут, например, иметь различные количественные характеристики, которые могут сравниваться друг с другом/взвешиваться или обрабатываться так или иначе, чтобы принять решение (да/нет).

Устройство, показанное на фиг.1, дополнительно включает модификатор сигнала 20, предназначенный для изменения оригинального входного сигнала, как показано в 20а, или предназначенный для изменения канала окружения 16. Когда канал окружения 16 изменен, модификатор сигнала 20 производит измененный канал окружения 21, тогда как когда входной сигнал 20а изменен, измененный входной сигнал 20b производится для повышающего микшера 14, который затем производит измененный канал окружения 16', аналогично тому, как, например, при помощи того же самого процесса повышающего микширования, использовавшегося для прямого канала 15. Если результатом этого процесса повышающего микширования, из-за измененного входного сигнала 20b, также является прямой канал, этот прямой канал будет отклонен, так как в соответствии с изобретением прямой канал, полученный из неизмененного входного сигнала 12 (без подавления речи), а не неизмененный входной сигнал 20b, используется как прямой канал.

Модификатор сигнала используется для изменения частей, по крайней мере, одного канала сигнала окружения или входного сигнала, где эти части могут, например, быть временными или частотными частями или частями ортогонального разрешения. В частности, части, соответствующие частям, обнаруженным речевым детектором, изменяются таким образом, что модификатор сигнала, как было показано, производит измененный канал окружения 21 или измененный входной сигнал 20b, в котором речевая часть ослаблена или удалена, где речевая часть была ослаблена в меньшей степени или, по выбору, совсем не ослаблена в соответствующей части прямого канала.

Кроме того, устройство, показанное на фиг.1, включает выходные средства сигнала громкоговорителя 22 для вывода сигналов громкоговорителя в сценарии воспроизведения, таком как, например, сценарий 5.1, примерно показанный на фиг.1, где, однако, сценарий 7.1, сценарий 3.0 или другой или даже более высокий сценарий также возможны. В частности, по крайней мере, один прямой канал и, по крайней мере, один измененный канал окружения используются для производства сигналов громкоговорителя для сценария воспроизведения, где измененный канал окружения может происходить из модификатора сигнала 20, как показано в 21, или из повышающего микшера 14, как показано в 16'.

Когда предоставлены, например, два измененных канала окружения 21, эти два измененных канала окружения могут подаваться непосредственно в два сигнала громкоговорителя Ls, Rs, тогда как прямые каналы подаются только в три передних громкоговорителя L, R, С, так, чтобы произошло полное разделение компонентов сигнала окружения и компонентов прямого сигнала. Компоненты прямого сигнала тогда все будут перед пользователем, а компоненты сигнала окружения все будут позади пользователя. Альтернативно, компоненты сигнала окружения также вводятся в передние каналы обычно в меньшем процентном соотношении так, что результатом будет прямой сценарий / сценарий окружения, показанный на фиг.5b, где сигналы окружения производятся не только окружающими каналами, но также и передними громкоговорителями, такими как, например, L, C, R.

Однако когда внутриполостной (в диапазоне) сценарий является предпочтительным, компоненты сигнала окружения будут также главным образом произведены передними громкоговорителями, такими как, например, L, R, С, где компоненты прямого сигнала, однако, могут также подаваться, по крайней мере, частично в два обратных громкоговорителя Ls, Rs. Чтобы иметь возможность разместить два источника прямого сигнала 1100 и 1102 на фиг.5 с в указанных положениях, часть источника 1100 в громкоговорителе L будет примерно такой же, как в громкоговорителе Ls, чтобы источник 1100 был помещен в центр между L и Ls в соответствии с обычным правилом панорамирования. Выходные средства сигнала громкоговорителя 22 могут, в зависимости от осуществления, вызывать прямое прохождение канала, подающегося на входную сторону, или могут отображать каналы окружения и прямые каналы, такие как, например, во внутриполостной (в диапазоне) концепции или концепции прямого сигнала / сигнала окружения, таким образом, что каналы распределяются индивидуальными громкоговорителями, и в конечном счете, части из индивидуальных каналов могут суммироваться, чтобы произвести реальный сигнал громкоговорителя.

Фиг.2 показывает частотно-временное распределение анализируемого сигнала в верхней части и канала окружения или входного сигнала в нижней части. В частности, время располагается вдоль горизонтальной оси, а частота - вдоль вертикальной оси. Это означает, что на фиг.2 для каждого сигнала 15 имеется частотно-временная мозаика или частотно-временные части, имеющие то же самое число и в анализируемом сигнале, и в канале окружения/входном сигнале. Это означает, что модификатор сигнала 20, например, когда речевой детектор 18 обнаруживает речевой сигнал в части 22, так или иначе обработает часть канала окружения/входного сигнала, например, ослабляя его, полностью устраняя или заменяя синтезирующим сигналом, не включающим речевую характеристику. Следует заметить, что в данном изобретении распределение не должно быть таким селективным, как показано на фиг.2. Вместо этого временное обнаружение уже может обеспечить удовлетворительный эффект, где определенная временная часть анализируемого сигнала, например, от секунды 2 до секунды 2.1 обнаруживается как содержащая речевой сигнал, чтобы затем обработать часть канала окружения или входного сигнала также между секундой 2 и секундой 2.1, чтобы получить подавление речи.

Альтернативно, ортогональное разрешение может также быть осуществлено таким образом, как, например, посредством главного факторного анализа, где в этом случае то же самое распределение компонентов будет использоваться и в канале окружения или входном сигнале, и в анализируемом сигнале. Определенные компоненты, обнаруженные в анализируемом сигнале как речевые компоненты, ослабляются или полностью подавляются или устраняются в канале окружения или входном сигнале. В зависимости от осуществления часть будет обнаружена в анализируемом сигнале; эта часть не обязательно обрабатывается в анализируемом сигнале, но, возможно, также в другом сигнале.

Фиг.3 показывает осуществление речевого детектора во взаимодействии с модификатором канала окружения; речевой детектор предоставляет только информацию о времени, то есть согласно фиг.2 только широкополосную идентификацию первого, второго, третьего, четвертого или пятого временного интервала и передачу этой информации модификатору канала окружения 20 через линию управления 18d (фиг.1). Речевой детектор 18 и модификатор канала окружения 20, которые работают синхронно или работают в буферизованном режиме, вместе достигают речевого сигнала или речевого компонента, который будет ослаблен в сигнале, подлежащем изменению, который может быть, например, сигналом 12 или сигналом 16, тогда как очевидно, что такое ослабление соответствующей части не будет происходить в прямом канале или будет происходить только в меньшей степени. В зависимости от осуществления это может также быть достигнуто при помощи повышающего микшера 14, действующего без учета речевых компонентов, такого как, например, в матричном методе или в другом методе, который не выполняет специальную речевую обработку. Прямой сигнал, достигнутый таким образом, затем подается на выходные средства 22 без дальнейшей обработки, тогда как сигнал окружения обрабатывается относительно речевого подавления.

Альтернативно, когда модификатор сигнала подвергает входной сигнал речевому подавлению, повышающий микшер 14 может, в некотором смысле, срабатывать дважды, чтобы извлечь компонент прямого канала на основе оригинального входного сигнала с одной стороны, но также извлечь и измененный канал окружения 16' на основе измененного входного сигнала 20b. Тот же самый алгоритм повышающего микширования повторится дважды, однако используя соответствующий другой входной сигнал, где речевой компонент ослаблен в одном входном сигнале и не ослаблен в другом входном сигнале.

В зависимости от осуществления модификатор канала окружения показывает функциональные возможности широкополосного ослабления или функциональные возможности высокочастотного фильтрования, что объяснено впоследствии.

Впоследствии различные осуществления изобретательного устройства будут объяснены со ссылкой на Фиг.6а, 6b, 6с и 6d.

На фиг.6а сигнал окружения а извлекается из входного сигнала х; это извлечение является частью функциональных возможностей повышающего микшера 14. Обнаруживается речь, встречающаяся в сигнале окружении а. Результат обнаружения d используется в модификаторе канала окружения 20, вычисляющем измененный сигнал окружения 21, в котором подавлены речевые части.

Фиг.6b показывает конфигурацию, которая отличается от фиг.6а тем, что входной сигнал, а не сигнал окружения подается на речевой детектор 18 как анализируемый сигнал 18а. В частности, измененный сигнал канала окружения а вычисляется аналогично конфигурации фиг.6а, однако обнаруживается речь во входном сигнале. Это может объясняться тем, что речевые компоненты обычно легче обнаруживаются во входном сигнале х, чем в сигнале окружения а. Таким образом, повышенная надежность может быть достигнута конфигурацией, показанной на фиг.6b.

На фиг.6с измененный речью сигнал окружения а извлекается из версии x_s входного сигнала, который уже подвергся подавлению речевого сигнала. Так как речевые компоненты в х обычно более отчетливы, чем в извлеченном сигнале окружения, подавление может быть осуществлено способом, являющимся более безопасным и более постоянным, чем показанный на фиг.6а. Недостаток конфигурации, показанной на фиг.6с, по сравнению с конфигурацией на фиг.6а заключается в том, что потенциальные артефакты подавления речи и процесс извлечения окружения могут, в зависимости от типа метода извлечения, оказаться ухудшенными. Однако на фиг.6с функциональные возможности экстрактора канала окружения 14 используются только для извлечения канала окружения из измененного звукового сигнала. Однако прямой канал извлекается не из измененного звукового сигнала x_s (20b), а на основе оригинального входного сигнала х (12).

В конфигурации, показанной на фиг.6d, сигнал окружения а извлекается из входного сигнала х при помощи повышающего микшера. Обнаруживается речь, встречающаяся во входном сигнале х. Кроме того, дополнительная побочная информация е, которая дополнительно управляет функциональными возможностями модификатора канала окружения 20, вычисляется речевым анализатором 30. Эта побочная информация вычисляется непосредственно из входного сигнала и может указывать положение речевых компонентов в частотно-временном представлении, например, в форме спектрограммы фиг.2, или может представлять собой дальнейшую дополнительную информацию, которая будет более детально объяснена ниже.

Функциональные возможности речевого детектора 18 будут детализированы ниже. Цель речевого обнаружения - анализ смеси звуковых сигналов для оценки вероятности присутствия речи. Входной сигнал может быть сигналом, составленным множеством звуковых сигналов различных типов, например, музыкой, шумом или специальными тоновыми эффектами, встречающимися в кинофильмах. Один способ обнаружения речи использует систему распознавания образов. Распознавание образов означает анализ необработанных данных и выполнение специальной обработки, основанной на категории образца, который был обнаружен в необработанных данных. В частности, термин «образ» описывает базовое подобие, обнаруживаемое между измерениями объектов равных категорий (классы). Основные операции системы распознавания образов - обнаружение, то есть запись данных при помощи конвертера, предварительная обработка, извлечение характеристик и классификация, где эти основные операции могут выполняться в указанном порядке.

Обычно микрофоны используются как детекторы для системы обнаружения речи. Подготовка может являться аналого-цифровым преобразованием (преобразование A/D), повторной дискретизацией или подавлением шумов. Извлечение характеристик означает вычисление характерных особенностей каждого объекта измерений. Характеристики выбираются таким образом, чтобы они были аналогичны у всех объектов того же класса, то есть таким образом, чтобы добиться хорошей компактности между классами, и таким образом, чтобы они были различны у объектов различных классов, чтобы добиться сепарабильности между классами. Третье требование состоит в том, что характеристики должны быть устойчивыми относительно шума, условий окружения и преобразований входного сигнала, не связанных с человеческим восприятием. Извлечение характеристик может быть разделено на две отдельных стадии. Первая стадия вычисляет характеристики, а вторая стадия задает или преобразовывает характеристики на обычной ортогональной основе, чтобы минимизировать корреляцию между характеристическими векторами и уменьшить размерность характеристик, не используя элементы малой энергии.

Классификация - это процесс определения, имеется речь или нет, основанный на извлеченных характеристиках и обучаемом классификаторе. Используется следующее уравнение:

Ω_XY={(x₁,y₁),…,(x_l,y_l)},x_i∈ℜⁿ, y∈Y={1,…,c}

В вышеупомянутом уравнении определено количество обучающих векторов Ωху; векторы характеристик обозначены x_i, а комплект классов - Y. Это означает, что для основного речевого обнаружения, у Y есть два значения, а именно {речь, не речь}.

В фазе обучения характеристики x_y вычисляются из указанных данных, то есть звуковых сигналов, у которых известно, к какому классу у они принадлежат. После окончания обучения классификатор выучивает характеристики всех классов.

В фазе применения классификатора характеристики вычисляются и задаются от неизвестных данных, как в фазе обучения, и классифицируются классификатором, основанным на знании характеристик классов, полученном при обучении.

Специальное осуществление речевого подавления, которое может, например, быть выполнено модификатором сигнала 20, будет детализировано в дальнейшем. Таким образом, различные способы могут использоваться для подавления речи в звуковом сигнале. Существуют способы, которые не используются в области усиления речи и уменьшения шума в средствах связи. Первоначально способы усиления речи использовались, чтобы усилить речь в смеси речи и фонового шума. Способы этого типа могут быть изменены так, чтобы вызвать обратное, а именно подавление речи, выполняемое для данного изобретения.

Существуют подходы к решению проблемы усиления речи и подавления шума, которые уменьшают или усиливают коэффициенты частотно-временного представления в соответствии с предполагаемым значением уровня шума, содержавшегося в таком частотно-временном коэффициенте. Когда никакая дополнительная информация относительно фонового шума не известна, например, такая как априорная информация или информация, замеренная специальным шумовым детектором, частотно-временное представление получается из наполненного шумами измерения, например, посредством использования специальных минимальных статистических способов. Правило подавления шумов вычисляет фактор ослабления, используя предполагаемую величину шума. Этот принцип известен как краткосрочное спектральное ослабление или спектральное взвешивание, что, например, упоминается в работе Г. Шмида, «Подавление шума одиночного канала, основанное на спектральном взвешивании», Информационный бюллетень Eurasip (Европейская Ассоциация по обработке сигнала) 2004 г. Спектральное вычитание, винеровская фильтрация и алгоритм Эфраима-Малаха (Ephraim-Malah) являются способами обработки сигнала, работающими в соответствии с принципом краткосрочного спектрального ослабления (STSA). Наиболее общепринятая формулировка STSA подхода дает в результате способ подпространства сигнала, который также известен как способ приведенного разряда и описан в работе П.Хансена и С.Дженсена, «Представление сокращения шума приведенного разряда посредством фильтра с конечной импульсной характеристикой», IEEE (Институт инженеров по электротехнике и электронике) TSP (Доверие, безопасность и конфиденциальность), 1998 г.

В принципе, все способы, которые усиливают речь или подавляют неречевые компоненты, могут использоваться для подавления речи и/или усиления неречевых компонентов посредством обратного способа использования относительно известного способа использования. Обычная модель усиления речи или подавления шума основана на том, что входной сигнал - смесь желательного сигнала (речь) и фонового шума (не речь). Подавление речи, например, достигается посредством инвертирования факторов ослабления в основанном на STSA способе или посредством замены описаний желательного сигнала и фонового шума.

Однако важным требованием в подавлении речи является то, что относительно контекста повышающего микширования получающийся звуковой сигнал воспринимается как высококачественный звуковой сигнал. Известно, что способы усовершенствования речи и способы уменьшения шума вводят слышимые артефакты в выходной сигнал. Пример артефактов этого типа известен как музыкальный шум или звуки музыки и является результатом подверженной ошибкам оценки минимальных уровней шума и переменных факторов ослабления поддиапазона.

Альтернативно, способы разделения слепых источников могут также использоваться для отделения частей речевого сигнала от окружающего сигнала и для того, чтобы впоследствии манипулировать ими отдельно.

Однако определенные способы, которые будут детализированы впоследствии, являются предпочтительными для специального требования производства высококачественных звуковых сигналов вследствие того, что по сравнению с другими методами они делают это значительно лучше. Один способ - широкополосное ослабление, как обозначено на фиг.3 цифрой 20. Звуковой сигнал ослабляется во временных интервалах, где есть речь. Специальные факторы усиления находятся в диапазоне между - 12 децибелами и - 3 децибелами, а предпочтительное ослабление приходится на 6 децибелов. Так как другие компоненты/части сигнала могут также быть подавлены, можно предположить, что полная потеря энергии звукового сигнала воспринимается отчетливо. Однако было обнаружено, что этот эффект не является помехой, так как пользователь концентрируется, в частности, на передних громкоговорителях L, С, R, во всяком случае, когда речевая последовательность начинается, чтобы пользователь не испытывал уменьшения энергии обратных каналов или сигнала окружения, когда он или она концентрируется на речевом сигнале. Это особенно усиливается дальнейшим типичным эффектом, заключающимся в том, что уровень звукового сигнала увеличится в любом случае из-за начинающейся речи. Введение ослабления в диапазоне между - 12 децибелами и 3 децибелами приводит к тому, что ослабление не воспринимается как тревожащее. Вместо этого пользователю будет приятнее, что из-за подавления речевых компонентов в обратных каналах будет достигнут эффект, результатом которого является то, что речевые компоненты находятся исключительно в передних каналах.

Альтернативным способом, который также обозначен на Фиг.3 цифрой 20, является высокочастотная фильтрация. Звуковой сигнал подвергается высокочастотной фильтрации там, где есть речь, где граничная частота находится в диапазоне между 600 Гц и 3000 Гц. Регулирование граничной частоты вытекает из характеристики сигнала речи относительно данного изобретения. Долгосрочный энергетический спектр речевого сигнала концентрируется в диапазоне ниже 2.5 кГц. Предпочтительный диапазон основной частоты вокализованной речи находится в диапазоне между 75 Гц и 330 Гц. Диапазон между 60 Гц и 250 Гц соответствует взрослым людям мужского пола. Среднее значение диктора мужского пола - 120 Гц и диктора-женщины - 215 Гц. Из-за резонанса в голосовом тракте определенные частоты сигнала усиливаются. Соответствующие пики в спектре также называются формантными частотами или просто формантами. Как правило, ниже 3500 Гц существуют ориентировочно три значимые форманты. Следовательно, речь проявляет 1/F природу, то есть спектральная энергия уменьшается с увеличением частоты. Таким образом, в целях данного изобретения речевые компоненты могут хорошо фильтроваться посредством высокочастотной фильтрации, включая обозначенный диапазон граничной частоты.

Другое предпочтительное осуществление - синусоидальное моделирование сигнала, которое показано со ссылкой на фиг.4. На первой стадии 40 обнаруживается основная волна речи, где это обнаружение может быть выполнено в речевом детекторе 18 или, как показано на фиг.6е, в анализатор речи 30. На следующей стадии 41 выполняется анализ для обнаружения гармоники, принадлежащий основной волне. Эти функциональные возможности могут выполняться в речевом детекторе/речевом анализаторе или даже уже в модификаторе сигнала окружения. Впоследствии спектрограмма вычисляется для сигнала окружения на основе преобразования блока за блоком, как обозначено цифрой 42. Впоследствии фактическое речевое подавление выполняется на стадии 43 посредством ослабления основной волны и гармоники в спектрограмме. На стадии 44 измененный сигнал окружения, в котором основная волна и гармоника ослаблены или устранены, подвергается повторному преобразованию, чтобы получить измененный сигнал окружения или измененный входной сигнал.

Это синусоидальное моделирование сигнала часто используется для тонового синтеза, звукового кодирования, исходного разделения, тоновой манипуляции и подавления шума. Здесь сигнал представляется как компоновка, составленная из синусоидальных волн зависящих от времени амплитуд и частот. Вокализованные компоненты речевого сигнала управляются посредством идентификации и изменения парциальных тонов, то есть их основной волны и гармоники.

Парциальные тоны идентифицируются посредством определителя парциального тона, как обозначено цифрой 41. Как правило, обнаружение парциального тона выполняется в частотно-временной области. Спектрограмма выполняется посредством краткосрочного преобразования Фурье, как обозначено цифрой 42. Местные максимумы обнаруживаются в каждом спектре спектрограммы, а траектории определяются местными максимумами соседних спектров. Оценка основной частоты может поддерживать процесс выбора пиков; эта оценка основной частоты выполняется, как обозначено цифрой 40. Синусоидальное представление сигнала затем может быть получено из траекторий. Следует заметить, что последовательность между стадиями 40, 41 и стадией 42 также может быть различной, таким образом преобразование 42, выполняемое в анализаторе речи 30 на фиг.6d, будет происходить в первую очередь.

Были предложены различные разработки для получения синусоидального представления сигнала. Подход многомасштабной обработки для уменьшения шума показан в работе Д.Андерсена и М.Клементса «Уменьшение шума звукового сигнала посредством использования многомасштабного синусоидального моделирования», Труды ICASSP (Международная конференция по акустике и обработке речи и сигналов, МКАОРС) 1999 г. Повторяющийся процесс получения синусоидального представления был представлен в работе Дж.Йенсена и Дж.Хансена «Речевое расширение посредством использования повторяющейся синусоидальной модели с ограничением», IEEE (Институт инженеров по электротехнике и электронике) TSAP (Обработка звуковых сигналов речи и языка) 2001 г.

Используя синусоидальное представление сигнала, улучшенный речевой сигнал получается посредством усиления синусоидального компонента. Изобретательное подавление речи, однако, стремится достичь обратного, а именно подавления парциальных тонов; парциальные тоны включают их основную волну и гармоники, так как речевая часть включает вокализованную речь. Как правило, речевые компоненты высокой энергии имеют тональную природу. Таким образом, речь на уровне 60-75 децибелов - для гласных, а примерно на 20-30 децибелов ниже - для согласных. Возбуждение периодического сигнала импульсного типа - для вокализованной речи (гласные). Сигнал возбуждения фильтруется голосовым трактом. Следовательно, почти вся энергия сегмента вокализованной речи концентрируется в основной волне и гармонике. При подавлении этих парциальных тонов значительно подавляются речевые компоненты.

Другой способ достижения речевого подавления показан на Фиг.7 и 8. Фиг.7 и 8 объясняют основной принцип краткосрочного спектрального ослабления или спектрального взвешивания. Сначала определяется спектр плотности мощности фонового шума. Проиллюстрированный метод определяет количество речи, содержащееся в частотно-временной мозаике, посредством использования так называемых характеристик низкого уровня, которые являются мерой «подобия речи» сигнала в определенной частотной части. Низкоуровневые характеристики являются характеристиками низких уровней относительно интерпретации их значения и вычислительной сложности.

Звуковой сигнал разбивается на многие частотные диапазоны посредством блока фильтров или краткосрочного преобразования Фурье, как обозначено на фиг.7 цифрой 70. Затем, как примерно обозначено цифрами 71а и 71b, зависящие от времени коэффициенты усиления вычисляются для всех поддиапазонов из низкоуровневых характеристик этого типа, чтобы ослабить сигналы поддиапазона пропорционально количеству речи, в них содержащемуся. Подходящие низкоуровневые характеристики - спектральная мера плоскостности (SFM) и 4-герцевая энергия модуляции (4HzME). SFM измеряет степень тональности звукового сигнала и для диапазона является результатом частной геометрической средней величины всех спектральных величин в одном диапазоне и арифметической средней величины спектральных компонентов в этом диапазоне. 4HzME мотивируется тем фактом, что речь имеет характерный пик энергетической модуляции примерно в 4 Гц, который соответствует средней скорости произнесения слогов диктором.

Фиг.8 показывает детальную иллюстрацию блока вычисления усиления 71а и 71b фиг.7. Множество различных низкоуровневых характеристик, то есть LLF1,…,LLFn, вычисляется на основе поддиапазона x_i. Эти характеристики затем объединяются в объединителе 80, чтобы получить коэффициент усиления g_i для поддиапазона.

Следует заметить, что в зависимости от осуществления не обязательно должны использоваться низкоуровневые характеристики, но любые характеристики, такие как, например, энергетические характеристики и т.д., которые затем объединяются в объединителе в соответствии с осуществлением фиг.8, чтобы получить количественный коэффициент усиления g_i таким образом, что каждый диапазон (в любой момент времени) ослабляется непостоянно, чтобы достичь речевого подавления.

В зависимости от обстоятельств изобретательный способ может быть осуществлен или в аппаратных средствах, или в программном обеспечении. Осуществление может выполняться на цифровом носителе данных, в частности, на диске или компакт-диске, имеющем управляющие сигналы, считываемые при помощи электроники, которая может взаимодействовать с программируемой компьютерной системой, чтобы реализовать способ. В целом, изобретение, таким образом, также находится в компьютерном программном продукте, включающем управляющую программу, хранящуюся на машиночитаемом носителе, для реализации изобретательного способа, когда компьютерный программный продукт запущен на компьютере. Другими словами, изобретение может, таким образом, быть реализовано как компьютерная программа, имеющая управляющую программу для реализации способа, когда компьютерная программа запущена на компьютере.

1. Устройство для генерирования многоканального сигнала (10), число сигналов выходных каналов которого больше, чем число сигналов входных каналов входного сигнала (12), а число сигналов входных каналов равно одному или больше, характеризующееся тем, что включает повышающий микшер (14) для повышающего микширования входного сигнала, включающего речевую часть, чтобы обеспечить, по крайней мере, сигнал прямого канала и, по крайней мере, сигнал канала окружения, включающий речевую часть; речевой детектор (18) для обнаружения части входного сигнала, канал прямого сигнала или канала сигнала окружения, в котором встречается речевая часть; и модификатор сигнала (20) для изменения части сигнала канала окружения, который соответствует той части, обнаруженной речевым датчиком (18), чтобы получить измененный сигнал канала окружения, в котором речевая часть ослаблена или устранена; часть сигнала прямого канала ослабляется в меньшей степени или не ослабляется совсем; и выходные средства сигнала громкоговорителя (22) для вывода сигналов громкоговорителя в схеме воспроизведения посредством использования прямого канала и измененного канала окружения; сигналы громкоговорителя являются сигналами выходного канала.

2. Устройство по п.1, характеризующееся тем, что выходные средства сигнала громкоговорителя (22) выполнены, чтобы работать в соответствии с прямой схемой / схемой окружения, в которой каждый прямой канал может быть отображен на собственном громкоговорителе, и каждый сигнал канала окружения может быть отображен на собственном громкоговорителе; выходные средства сигнала громкоговорителя (22), выполненные, чтобы отображать только сигнал канала окружения, а не прямой канал, на сигналах громкоговорителя для громкоговорителей, находящихся позади слушателя в схеме воспроизведения.

3. Устройство по п.1, характеризующееся тем, что выходные средства сигнала громкоговорителя (22) выполнены, чтобы работать в соответствии с внутриполосной (в диапазоне) схемой, в которой каждый сигнал прямого канала может, в зависимости от его положения, быть отображен на одном или нескольких громкоговорителях, и где выходные средства сигнала громкоговорителя (22) выполнены, чтобы добавить сигнал канала окружения и прямой канал или часть сигнала канала окружения или прямого канала, определенного для громкоговорителя, чтобы получить выходной сигнал громкоговорителя для громкоговорителя.

4. Устройство по п.1, характеризующееся тем, что выходные средства сигнала громкоговорителя осуществлены, чтобы обеспечить сигналы громкоговорителя, по крайней мере, для трех каналов, которые могут быть размещены перед слушателем в схеме воспроизведения, и чтобы произвести, по крайней мере, два канала, которые могут быть размещены позади слушателя в схеме воспроизведения.

5. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы временно работать поблочным способом и проанализировать каждый временной блок по диапазонам частотно-избирательным способом, чтобы обнаружить частотный диапазон для временного блока, и где модификатор сигнала (20) выполнен, чтобы изменить частотный диапазон в таком временном блоке сигнала канала окружения, который соответствует тому диапазону, обнаруженному речевым датчиком (18).

6. Устройство по п.1, характеризующееся тем, что где модификатор сигнала выполнен так, чтобы ослабить сигнал канала окружения или части сигнала канала окружения во временном интервале, который был обнаружен речевым датчиком (18), и где повышающий микшер (14) и выходные средства сигнала громкоговорителя (22) выполнены, чтобы сформировать, по крайней мере, один прямой канал таким образом, что тот же самый временной интервал ослабляется в меньшей степени или не ослабляется совсем, так, чтобы прямой канал включал речевой компонент, который при воспроизведении может быть воспринят более сильным, чем речевой компонент в измененном сигнале канала окружения.

7. Устройство по п.1, характеризующееся тем, что модификатор сигнала (20) осуществлен, чтобы подвергнуть, по крайней мере, один сигнал канала окружения высокочастотной фильтрации, когда речевой детектор (18) обнаружил временной интервал, в котором есть речевая часть; граничная частота высокочастотного фильтра находится между 400 Гц и 3500 Гц.

8. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы обнаружить временное появление компонента речевого сигнала, и где модификатор сигнала (20) выполнен, чтобы определить основную частоту компонента речевого сигнала, и чтобы ослабить (43) тоны в сигнале канала окружения или входного сигнала выборочно на основной частоте и гармонике, чтобы получить измененный сигнал канала окружения или измененный входной сигнал.

9. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы определить меру речевого содержания на частотный диапазон, и где модификатор сигнала (20) осуществлен, чтобы ослабить (72а, 72b) посредством коэффициента ослабления соответствующий диапазон сигнала канала окружения в соответствии с мерой; более высокая мера приводит к более высокому коэффициенту ослабления, а более низкая мера приводит к более низкому коэффициенту ослабления.

10. Устройство по п.9, характеризующееся тем, что модификатор сигнала (20) включает конвертер частотно-временной области (70) для преобразования сигнала окружения в спектральное представление; аттенюатор (72а, 72b) для частотно-избирательного переменного ослабления спектрального представления; и конвертер частотно-временной области (73) для преобразования переменно ослабляемого спектрального представления во временном интервале, чтобы получить измененный сигнал канала окружения.

11. Устройство по п.9, характеризующееся тем, что речевой детектор (18) включает конвертер частотно-временной области (42) для обеспечения спектрального представления анализируемого сигнала; средства для вычисления одной или нескольких характеристик (71а, 71b) на диапазон анализируемого сигнала; и средства (80) для вычисления меры речевого содержания, основанного на комбинации одной или нескольких характеристик на диапазон.

12. Устройство по п.11, характеризующееся тем, что модификатор сигнала (20) выполнен, чтобы вычислить в качестве характеристик меру спектральной плоскостности (SFM) или 4-герцевую энергию модуляции (4HzME).

13. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы проанализировать сигнал канала окружения (18 с), а модификатор сигнала (20) выполнен, чтобы изменить сигнал канала окружения (16).

14. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы проанализировать входной сигнал (18а), а модификатор сигнала (20) осуществлен, чтобы изменить сигнал канала окружения (16), основанный на управляющей информации (18d) из речевого детектора (18).

15. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы проанализировать входной сигнал (18а), а модификатор сигнала (20) осуществлен, чтобы изменять входной сигнал, основанный на управляющей информации (18d) из речевого детектора (18), и где повышающий микшер (14) включает экстрактор канала окружения, который выполнен, чтобы выявить измененный сигнал канала окружения (16') на основе измененного входного сигнала; повышающий микшер (14) дополнительно осуществлен, чтобы выявить сигнал прямого канала (15) на основе входного сигнала (12) на входе модификатора сигнала (20).

16. Устройство по п.1, характеризующееся тем, что речевой детектор (18) осуществлен, чтобы проанализировать входной сигнал (18а), где дополнительно анализатор речи (30) выполнен, чтобы подвергнуть входной сигнал речевому анализу, и модификатор сигнала (20) осуществлен, чтобы изменить сигнал канала окружения (16), основанный на управляющей информации (18d) из речевого детектора (18) и основанный на информации о речевом анализе (18е) из речевого анализатора (30).

17. Устройство по п.1, характеризующееся тем, что повышающий микшер (14) выполнен в виде матричного декодера.

18. Устройство по п.1, характеризующееся тем, что повышающий микшер (14) осуществляется как слепой повышающий микшер, который формирует сигнал прямого канала (15), сигнал канала окружения (16) только на основе входного сигнала (12), но без дополнительно переданной информации о повышающем микшировании.

19. Устройство по п.1, характеризующееся тем, что повышающий микшер (14) осуществлен, чтобы выполнить статистический анализ входного сигнала (12) для формирования сигнала прямого канала (15), сигнала канала окружения (16).

20. Устройство по п.1, характеризующееся тем, что входной сигнал является моно сигналом, включающим один канал, и где выходной сигнал является многоканальным сигналом, включающим два или больше сигналов канала.

21. Устройство по п.1, характеризующееся тем, что повышающий микшер (14) осуществлен, чтобы получить стерео сигнал, включающий два сигнала стерео канала в качестве входного сигнала, и где повышающий микшер (14) дополнительно осуществляется, чтобы реализовать сигнал канала окружения (16) на основе вычисления взаимной корреляции сигналов стерео канала.

22. Способ генерирования многоканального сигнала (10), у которого число сигналов выходного канала больше, чем число сигналов входного канала входного сигнала (12), число сигналов входного канала равно одному или нескольким; характеризующийся тем, что включает следующие шаги: повышающее микширование (14) входного сигнала, чтобы обеспечить, по крайней мере, сигнал прямого канала и, по крайней мере, сигнал канала окружения; обнаружение (18) части входного сигнала, сигнала прямого канала или сигнала канала окружения, в которых встречается речевая часть; и изменение (20) части сигнала канала окружения, которая соответствует части, обнаруженной на стадии обнаружения (18), чтобы получить измененный сигнал канала окружения, в котором речевая часть ослаблена или устранена; часть в сигнале прямого канала ослабляется в меньшей степени или совсем не ослабляется; и вывод сигналов громкоговорителя (22) в схеме воспроизведения посредством использования прямого канала и измененного сигнала канала окружения; сигналы громкоговорителя являются сигналами выходного канала.

23. Машиночитаемый носитель, содержащий сохраненный на нем компьютерный программный продукт с кодом программы для выполнения способа по п.22.

Изобретение относится к кодированию и декодированию многоканальных звуковых сигналов с использованием пространственных параметров и, в частности, к усовершенствованным принципам для формирования и использования декоррелированных сигналов.

Система контроля уровня звука // 2336666

Изобретение относится к системе контроля уровня звука и может быть использовано, например, в системе домашнего кинротеатра в случае использования тонкой центральной акустической колонки, низкие звуки могут восприниматься на слух, как слышимые из центральной акустической колонки.

Устройство для квазиквадрофонии // 1614137

Устройство для записи-воспроизведения квадрофонических программ // 1531232

Изобретение относится к электроакустике. .

Стереофоническая система звуковоспроизведения с двумя тыловыми каналами // 1413729

Изобретение относится к области стереофонического звуковоспроизведения и может быть использовано для озвучивания кинотеатральных залов или других помещений большого объема.

Интеллектуальная градиентная система шумоподавления // 2461081

Изобретение относится к подавлению шума и более конкретно к интеллектуальной системе (100) шумоподавления. .

Устройство и способ расширения полосы пропускания аудио сигнала // 2455710

Изобретение относится к обработке аудиосигнала, в частности к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала. .

Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот // 2452044

Изобретение относится к способам генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. .

Средство обнаружения голосовой активности с использованием нескольких микрофонов // 2450368

Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов. .

Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра // 2443028

Изобретение относится к области кодирования и декодирования звука, в частности, с расширением диапазона рабочих частот (BWE). .

Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов // 2441286

Повышение разборчивости речи в звукозаписи развлекательных программ // 2440627

Изобретение относится к обработке сигналов звукозаписи, в частности к повышению разборчивости звукозаписи развлекательных программ, таких как телевизионная звукозапись.

Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии // 2438197

Изобретение относится к обработке звуковых сигналов, в частности к анализу слуховой сцены и спектральной асимметрии. .

Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала // 2426180

Изобретение относится к обработке звуковых сигналов, относящейся к измерению и регулированию воспринимаемой громкости звука и/или воспринимаемого спектрального баланса звукового сигнала.

Системы, способы и устройство для ограничения коэффициента усиления // 2420817

Изобретение относится к кодированию речи. .

Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот // 2464652

Изобретение относится к воспроизведению аудио контента, в частности к способам расширения полосы частот

Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания // 2467406

Изобретение относится к обработке звуковых сигналов, в частности, к улучшению четкости диалога и устной речи, например, в объемном развлекательном звуковом сопровождении

Способ и устройство для управления сглаживанием стационарного фонового шума // 2469419

Изобретение относится к кодированию речевого сигнала в телекоммуникационных системах, в частности, к способам и устройствам для управления сглаживанием стационарного фонового шума в таких системах

Повышение разборчивости речи с помощью четкости голоса // 2469423

Изобретение относится к обработке аудиосигнала, в частности к процессору или способу обработки для повышения разборчивости речи и очистки зашумленного речевого аудиосигнала

Система и способ улучшения декодированного тонального звукового сигнала // 2470385

Изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, в частности музыкального сигнала, закодированного с использованием речевого кодека, посредством подавления уровня шума квантования в областях спектра, в которых наблюдается малая энергия

Способ и устройство для оценивания энергии полосы высоких частот в системе расширения полосы частот // 2471253

Изобретение относится к воспроизведению слышимого контента, в частности к методикам расширения полосы частот