Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии



Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии

 


Владельцы патента RU 2438197:

ДОЛБИ ЛЭБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШН (US)

Изобретение относится к обработке звуковых сигналов, в частности к анализу слуховой сцены и спектральной асимметрии. Техническим результатом является создание способа регулирования громкости слуховых событий в звуковом сигнале, позволяющего различать или обнаруживать звуковые сигналы, воспринимаемые как более тихие, независимо от абсолютного уровня звукового сигнала. Указанный результат достигается тем, что разделяют звуковой сигнал на слуховые события, каждое из которых воспринимают как отдельное и отличное, посредством обнаружения изменений в спектральном составе относительно времени. Разделение включает в себя этап, на котором обнаруживают местоположение и силу границ слуховых событий в звуковом сигнале, получают динамически изменяющуюся меру спектральной асимметрии звукового сигнала. При этом спектральная асимметрия является статистической мерой асимметрии распределения вероятности спектра звукового сигнала. Затем изменяют силу границ слуховых событий в зависимости от упомянутой меры таким образом, что чем меньше асимметричен спектр на местоположении границы слухового события, тем больше уменьшают силу границы слухового события. Сигнальной обработкой сигнала управляют в зависимости от местоположения и измененной на основании асимметрии силы границ слуховых событий. 4 н. и 6 з.п. ф-лы, 5 ил.

 

Область техники, к которой относится изобретение

Изобретение относится к обработке звуковых сигналов в общем и к анализу слуховой сцены и спектральной асимметрии в частности.

Ссылки на известные аналоги:

Следующие документы включены в данное описание для сведения в полном объеме:

Crockett and Seefeldt, международная заявка PCT/US2007/008313 на изобретение "Controlling Dynamic Gain Parameters of Audio using Auditory Scene Analysis and Specific-Loudness-Based Detection of Auditory Events" (Регулирование динамических параметров усиления звука с использованием анализа по слуховым сценам и обнаружения слуховых событий на основе удельной громкости), авторы Brett Graham Crockett и Alan Jeffrey Seefeldt, дата подачи 30 марта 2007 г., досье DOLl 86 PCT, опубликована 8 ноября 2007 г. как WO 2007/127023;

Seefeldt et al., международная заявка PCT/US 2004/016964, на изобретение "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal" (Способ, устройство и компьютерная программа для вычисления и коррекции воспринимаемой громкости звукового сигнала), авторы Alan Jeffrey Seefeldt et al., дата подачи 27 мая 2004, досье No.DOLl 19 PCT, опубликована 23 декабря 2004 как WO 2004/111994 A2;

Seefeldt, международная заявка PCT/US2005/038579 на изобретение "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal" (Вычисление и корректировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала), автор Alan Jeffrey Seefeldt, дата подачи 25 октября 2005 г., дело № DOLl 5202 PCT, опубликована 4 мая 2006 г. как WO 2006/047600;

Crockett, заявка на патент США 10/474,387 на изобретение "High Quality Time-Scaling and Pitch-Scaling of Audio Signals" (Высококачественное масштабирование звуковых сигналов по времени и основному тону), автор Brett Graham Crockett, дата подачи 10 октября 2003 г., дело № DOL07503, опубликована 24 июня 2004 г. как US 2004/0122662 Al;

Crockett et al., заявка на патент США 10/478,398 на изобретение "Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events" (Способ согласования звуковых сигналов по времени с использованием определения характеристик на основании слуховых событий), авторы Brett G. Crockett et al., дата подачи 20 ноября 2003 г., дело № DOL09201, опубликована 29 июля 2004 г. как US 2004/0148159 Al;

Crockett, заявка на патент США 10/478,538 на изобретение "Segmenting Audio Signals Into Auditory Events" (Сегментация звуковых сигналов на слуховые события), автор Brett G. Crockett, дата подачи 20 ноября 2003 г., дело № DOL098, опубликована 26 августа 2004 г. как US 2004/0165730 Al;

Crockett et al., заявка на патент США 10/478,397 на изобретение "Comparing Audio Using Characterizations Based on Auditory Events" (Сравнение звуковых сигналов с использованием определения характеристик на основании слуховых событий), авторы Brett G. Crockett et al., дата подачи 20 ноября 2003 г., дело № DOL092, опубликована 2 сентября 2004 г. как US 2004/0172240 Al;

Smithers, международная заявка PCT/US 05/24630 на изобретение "Method for Combining Audio Signals Using Auditory Scene Analysis" (Способ комбинирования звуковых сигналов с использованием анализа по слуховым сценам), автор Michael John Smithers, дата подачи 13 июля 2005 г., дело № DOL148 PCT, опубликована 9 марта 2006 г. как WO 2006/026161;

Crockett, B. and Smithers, M., "A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis" (Способ определения характеристик и идентификации звука на основании анализа по слуховым сценам), Audio Engineering Society Convention Paper 6416, 18th Convention, Barcelona, May 28-31, 2005;

Crockett, B., "High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis" (Высококачественное многоканальное масштабирование по времени и сдвиг основного тона с использованием анализа по слуховым сценам), Audio Engineering Society Convention Paper 5948, New York, October 2003; and

Seefeldt et al., "A New Objective Measure of Perceived Loudness" (Новая объективная мера воспринимаемой громкости), Audio Engineering Society Convention Paper 6236, San Francisco, October 28, 2004.

Уровень техники

Слуховые события и обнаружение слухового события

Деление звуков на единицы или сегменты, воспринимаемые как отдельные и отличные друг от друга, иногда называют "анализом по слуховым событиям" или "анализом по слуховым сценам" (АСС). Эти сегменты иногда называют "слуховыми событиями" или "звуковыми событиями". В работе Albert S. Bregman, "Auditory Scene Analysis - The Perceptual Organization of Sound" (Анализ по слуховым сценам. - Воспринимаемая организация звука) (Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition) широко обсуждается анализ по слуховым сценам. Кроме того, в патенте США № 6,002,776 (Bhadkamkar et al., 14 декабря 1999) цитируются публикации, начиная с 1976 г., как "известные работы, относящиеся к разделению звука способом анализа по слуховым сценам." Однако Bhadkamkar et al. не признали возможность практического использования анализа по слуховым сценам и пришли к заключению, что "способы, включающие в себя анализ по слуховым сценам, хотя и представляют интерес с научной точки зрения как модели обработки слухового восприятия звука человеком, еще до сих пор нуждаются в слишком большой вычислительной обработке и специализации, чтобы их можно было рассматривать как практические способы разделения звука до тех пор, пока не будет достигнут значительный прогресс."

Crockett and Crocket et al. идентифицировали слуховые события в различных патентных публикациях и работах. В этих документах описано разделение звукового сигнала на слуховые события (каждое из которых, как правило, воспринимается как отдельное и отличное от других) путем обнаружения изменений спектрального состава (амплитуды как функции частоты) относительно времени. Это можно реализовать, например, путем вычисления спектрального состава последовательных временных блоков звукового сигнала, сравнения спектрального состава в последовательных временных блоках и идентификации границы слухового события как границы между блоками, на которой разность спектрального состава превышает некоторый порог. Альтернативно, вместо изменений спектрального состава относительно времени или дополнительно к ним можно вычислять изменения амплитуды относительно времени.

Часто во временной сигнал регулирования вводятся маркеры границ слуховых событий, диапазон которых, обычно между нулем и единицей, показывает силу границы события. Кроме того, этот сигнал регулирования часто фильтруется, чтобы оставить силу границы события, а интервалы времени между границами событий вычисляются как затухающие значения предыдущей границы события. Затем эта отфильтрованная сила слухового события используется в других способах обработки звука, включая автоматическую регулировку усиления и регулировку динамического диапазона.

Динамическая обработка звукового сигнала

Методики автоматической регулировки усиления (АРУ) и регулировки динамического диапазона (РДД) хорошо известны и применяются во многих трактах прохождения звукового сигнала. В абстрактном смысле обе методики измеряют уровень звукового сигнала, а затем изменяют усиление сигнала на величину, зависящую от измеренного уровня. В линейной динамической системе обработки с отношением 1:1 входной звуковой сигнал не обрабатывается и выходной звуковой сигнал идеально соответствует входному звуковому сигналу. Кроме того, представим систему динамической обработки звукового сигнала, которая автоматически измеряет входной сигнал и регулирует выходной сигнал в соответствии с этим измерением. Если уровень входного сигнала повышается на 6 dB, а уровень обработанного выходного сигнала всего на 3 dB, то выходной сигнал сжимается в отношении 2:1 к входному сигналу.

В работе Crockett and Seefeldt анализ по слуховым сценам повышает эффективность способов АРУ и РДД за счет минимизации изменения усиления между границами событий и ограничения большей части изменения усиления областью вблизи границы события. Это реализуется путем изменения характера выдаваемого звука с динамической обработкой. При этом слуховые события звучат целостно и естественно.

Примером могут служить ноты, играемые на пианино. При обычных способах АРУ или РДД усиление, применяемое к звуковому сигналу, нарастает во время конечной части каждой ноты, вызывая неестественное нарастание каждой ноты. При использовании анализа по слуховым сценам усиление АРУ или РДД остается постоянным внутри каждой ноты и изменяется только у начала каждой ноты, где обнаружена граница слухового события. Результирующий звуковой сигнал со скорректированным усилением звучит естественно, так как конец каждой ноты затухает.

В известных реализациях анализа по слуховым сценам (в упомянутых выше источниках информации) уровень преднамеренно остается неизменным. Это означает, что в них определяются границы слуховых событий независимо от абсолютного уровня сигнала. Хотя неизменность уровня полезна во многих применениях, для некоторых случаев анализа по слуховым сценам целесообразно предусмотреть некоторую зависимость от уровня.

Одним таким случаем является способ, описанный в работе Crockett и Seefeldt. В нем регулировка АРУ и РДД с помощью АСС предотвращает большие изменения усиления между границами событий. Однако более долговременные изменения усиления могут быть все же нежелательными на некоторых видах звуковых сигналов. Когда звуковой сигнал идет от более громкой к более тихой части, усиление АРУ или РДД, изменение которого ограничено только областью вблизи границ, может позволить уровню обработанного звукового сигнала нежелательно и неестественно возрасти во время тихой части. Такая ситуация часто встречается в фильмах, где случайный диалог чередуется с тихими фоновыми звуками. Поскольку тихий фоновый звуковой сигнал также содержит слуховые события, усиление АРУ или РДД изменяется вблизи границ этих событий и весь уровень звукового сигнала возрастает.

Простое присвоение весовых коэффициентов важности слуховых событий мерой уровня звукового сигнала, мощности или громкости нежелательно. Во многих ситуациях соотношение между мерой сигнала и абсолютным уровнем воспроизведения неизвестно. В идеальном случае было бы полезно иметь меру, позволяющую различать или обнаруживать звуковые сигналы, воспринимаемые как более тихие, независимо от абсолютного уровня звукового сигнала.

В данном контексте "воспринимаемые как более тихие" означает более тихий не по объективной мере громкости (как в работе Seefeldt, et al. и Seefeldt), а более тихий на основании ожидаемой громкости содержания. Например, опыт человека показывает, что шепот является тихим звуком. Если система динамической обработки измеряет его как тихий и затем увеличивает усиление АРУ для достижения некоторой номинальной выходной громкости или уровня, то результирующий шепот со скорректированным усилением будет громче, чем ожидается на основании опыта.

Сущность изобретения

Предложены способы и устройство для сигнальной обработки звукового сигнала. В одном варианте способ включает в себя разделение звукового сигнала на слуховые события, причем каждое из которых воспринимают как отдельное и отличное, посредством обнаружения изменений в спектральном составе относительно времени, причем упомянутое разделение включает в себя обнаружение местоположения и силы границ слуховых событий в звуковом сигнале, получение динамически изменяющейся меры спектральной асимметрии звукового сигнала, причем спектральная асимметрия является статистической мерой асимметрии распределения вероятности спектра звукового сигнала, изменение силы границ слуховых событий в зависимости от упомянутой меры таким образом, что чем меньше асимметричен спектр на местоположении границы слухового события, тем больше уменьшают силу границы слухового события, и управление сигнальной обработкой сигнала в зависимости от местоположения и измененной на основании асимметрии силы границ слуховых событий. Другие варианты изобретения предусматривают следующее: разделение включает в себя анализ спектра звукового сигнала; получение включает в себя вычисление асимметрии из спектрального представления звукового сигнала; вычисление включает в себя вычисление сигнала возбуждения, аппроксимирующего распределение энергии вдоль базилярной мембраны внутреннего уха; разделение включает в себя преобразование звукового сигнала в область воспринимаемой громкости, причем упомянутое преобразование включает в себя вычисление сигнала возбуждения, аппроксимирующего распределение энергии вдоль базилярной мембраны внутреннего уха; получение включает в себя вычисление асимметрии из сигнала возбуждения; и мера спектральной асимметрии является сглаженной мерой.

В других вариантах осуществления изобретения предложено машиночитаемое запоминающее устройство, содержащее компьютерную программу для выполнения любого из упомянутых способов.

В следующих вариантах осуществления изобретения предложена вычислительная система для управления сигнальной обработкой звукового сигнала, содержащая центральное процессорное устройство (ЦПУ), упомянутое запоминающее устройство и шину, соединяющую ЦПУ и запоминающее устройство с возможностью обмена данными.

В еще одном варианте осуществления изобретения предложено устройство для управления сигнальной обработкой звукового сигнала, содержащее средство, выполненное с возможностью осуществления любого из упомянутых способов.

Различные существенные признаки настоящего изобретения и его предпочтительные варианты станут более понятными из следующего описания и прилагаемых чертежей, на которых одинаковые элементы обозначены одинаковыми ссылочными номерами.

Описание чертежей

фиг.1 иллюстрирует устройство для осуществления двух способов анализа по слуховым сценам и регулировки параметров динамического усиления в соответствии с Crockett и Seefeldt.

Фиг.2 иллюстрирует процессор звуковых сигналов для идентификации слуховых событий и вычисления асимметрии для модификации слуховых событий, которые, в свою очередь, изменяют параметры динамической обработки, в соответствии с вариантом настоящего изобретения.

Фиг.3 изображает ряд графиков, иллюстрирующих использование слуховых событий для регулировки времени выдачи звука в цифровой реализации регулятора динамического диапазона (РДД), в соответствии с вариантом настоящего изобретения.

Фиг.4 изображает идеализированный отклик характеристик линейного фильтра, пригодного в качестве пропускающего фильтра, в соответствии с вариантом настоящего изобретения.

Фиг.5 изображает ряд идеализированных откликов характеристик звукового фильтра, которые аппроксимируют критическую полосатость на шкале ERB.

Описание предпочтительного варианта осуществления изобретения

На фиг.1 изображено устройство 1 для анализа по слуховым сценам и регулировки параметров динамического усиления по способу Crockett и Seefeldt. Устройство содержит модуль 10 идентификации слуховых событий, необязательный модуль 11 идентификации характеристик слуховых событий и модуль 12 изменения динамических параметров. Модуль 10 идентификации слуховых событий принимает звуковой сигнал в качестве входного и формирует входной сигнал для модуля 12 изменения динамических параметров (и входной сигнал для модуля 11 идентификации характеристик слуховых событий, если он имеется). Модуль 12 изменения динамических параметров принимает выходной сигнал модуля 10 идентификации слуховых событий (и модуля 11 идентификации характеристик слуховых событий, если он имеется) и формирует выходной сигнал.

Модуль 10 идентификации слуховых событий анализирует спектр и по результатам идентифицирует местоположение воспринимаемых слуховых событий, которые должны регулировать параметры динамического усиления. Альтернативно, модуль 10 идентификации слуховых событий преобразует звуковой сигнал в область воспринимаемой громкости (которая может обеспечить более психоакустически релевантную информацию, чем первый способ) и в этой области воспринимаемой громкости идентифицирует местоположение слуховых событий, которые должны регулировать параметры динамического усиления. (В этой альтернативе для обработки звукового сигнала известны абсолютные уровни воспроизведения звука).

Модуль 12 изменения динамических параметров изменяет динамические параметры на основании выходного сигнала модуля 10 идентификации слуховых событий (и модуля 11 идентификации характеристик слуховых событий, если он имеется).

В обеих альтернативах цифровой звуковой сигнал x[n] разбит на блоки, и для каждого блока t D[t] представляет спектральную разность между текущим блоком и предыдущим блоком.

Для первой альтернативы D[t] представляет сумму, на всех спектральных коэффициентах, величины разности между нормированными логарифмическими спектральными коэффициентами (в дБ) для текущего блока t и для предыдущего блока t-1. В этой альтернативе D[t] пропорциональна абсолютным разностям спектров (в дБ). Для второй альтернативы D[t] является суммой, на всех коэффициентах удельной громкости, величины разности между нормированными коэффициентами удельной громкости для текущего блока t и предыдущего блока t-1. В этой альтернативе D[t] пропорциональна абсолютным разностям удельной громкости (в сонах).

В обеих альтернативах, если D[t] превосходит порог Dmin, событие считается случившимся. Это событие может иметь силу в интервале между нулем и единицей, на основании отношения D[t] минус Dmin к разности между Dmax and Dmin. Силу A[t] можно вычислить как

Максимальный и минимальный пределы различны для каждой альтернативы из-за различия их единиц. Однако результат обеих альтернатив представляет собой силу события в интервале между 0 и 1. Существуют и другие альтернативы вычисления силы события, но альтернатива, представленная Уравнением (1), хорошо зарекомендовала себя в ряде областей, включая регулирование динамической обработкой. Присвоение силы (пропорциональной величине спектрального изменения, связанного с данным событием) звуковому событию позволяет лучше контролировать динамическую обработку, чем с помощью бинарного решения события. Оно допускает более значительные изменения усиления во время более сильных событий, и сигнал в Уравнении (1) позволяет осуществлять такой переменный контроль.

Сигнал A[t] является импульсным сигналом, импульс которого возникает на местоположении границы события. Для целей регулирования временем выдачи звука можно дополнительно сгладить сигнал A[t], чтобы он плавно затухал до нуля после обнаружения границы события. Сглаженный сигнал регулирования событием можно вычислить из A[t]:

Здесь αevent регулирует время спада сигнала регулирования событием.

На фиг.3 представлена последовательность графиков, иллюстрирующая рабочие характеристики и технический результат согласно одному варианту изобретения. График "b)" на фиг.3 показывает сигнал регулирования событием для соответствующего звукового сигнала "a)" на фиг.3, в котором время полуспада в схеме сглаживания установлено на 250 мс. Звуковой сигнал содержит три пачки импульсов диалога, перемежающихся тихими фоновыми звуками потрескивания костра. Сигнал регулирования событием показывает множество слуховых событий как в диалоге, так и в фоновых звуках.

На фиг.3 график "c)" показывает сигнал усиления РДД, где используется сигнал регулирования событием для изменения постоянной времени выдачи для сглаживания усиления РДД. Как описано в работе Crocket и Seefeldt, когда сигнал регулирования равен единице, коэффициент сглаживания выдачи не затрагивается, и сглаженное усиление изменяется в зависимости от значения постоянной времени. Когда сигнал регулирования равен нулю, сглаженному усилению не дают изменяться. Когда сигнал регулирования находится в интервале между нулем и единицей, сглаженному усилению дают возможность изменяться, но с меньшей скоростью пропорционально сигналу регулирования.

На графике "c" на фиг.3 усиление РДД возрастает во время тихих фоновых звуков из-за количества событий, обнаруженных в фоне. Результирующий звуковой сигнал, измененный РДД на графике "d)" фиг.3, имеет слуховое нежелательное нарастание фонового шума между пачками диалога.

Для уменьшения изменения усиления во время тихих фоновых звуков в одном варианте изобретения изменяют или присваивают весовые коэффициенты силе A[t] звука с использованием меры асимметрии спектра звукового сигнала. В одном варианте изобретения вычисляется спектральная асимметрия возбуждения звукового сигнала.

Под асимметрией понимается статистическая мера асимметрии распределения вероятности. Распределение, симметричное относительно среднего, имеет нулевую асимметрию. Распределение, основная часть или масса которого сконцентрирована над средним и имеется длинный хвост ниже среднего, имеет отрицательную асимметрию. Распределение, сконцентрированное под средним и имеющее длинный хвост выше среднего, имеет положительную асимметрию. Спектр величины или мощности типичного звукового сигнала имеет положительную асимметрию. То есть масса энергии спектра сконцентрирована ниже в спектре, и спектр имеет длинный хвост по направлению к верхней части спектра.

На фиг.2 показан процессор 2 звуковых сигналов, выполненный в соответствии с настоящим изобретением. Процессор 2 звуковых сигналов содержит модуль 12 изменения динамических параметров и необязательный модуль 11 идентификации характеристик слуховых событий как на фиг.1, а также модуль 20 идентификации слуховых событий и вычислитель 21 асимметрии. Вычислитель 21 асимметрии и модуль 20 идентификации слуховых событий принимают звуковой сигнал 13, и вычислитель 21 асимметрии формирует входной сигнал для модуля 20 идентификации слуховых событий. Модуль 20 идентификации слуховых событий, модуль 11 идентификации характеристик слуховых событий и модуль 12 изменения динамических параметров могут быть соединены так же, как их аналоги на фиг.1.

На фиг.2 вычислитель 21 асимметрии вычисляет асимметрию из спектрального представления звукового сигнала 13, и модуль 20 идентификации слуховых событий производит вычисление для анализа по слуховым сценам по тому же самому спектральному представлению. Звуковой сигнал 13 можно сгруппировать в 50 процентах перекрывающихся блоков M выборок, и можно вычислить дискретное преобразование Фурье следующим образом:

где M=2*N выборок и x[n,t] обозначает блок выборок.

Предполагается, что размер блока для этого преобразования такой же, как размер блока для вычисления сигнала слухового события. Однако это не обязательно. Если существуют различные скорости блоков, то сигналы на одной скорости блоков можно интерполировать или преобразовать по скорости на ту же самую шкалу времени, что и сигналы на другой скорости блоков.

Сигнал возбуждения E[b,t], аппроксимирующий распределение энергии вдоль базилярной мембраны внутреннего уха на критической полосе b во время блока t времени, вычисляется как:

где T[k] представляет частотный отклик фильтра, моделирующего передачу звука через наружное и среднее ухо, и Cb[k] представляет частотный отклик базилярной мембраны на местоположении, соответствующем критической полосе b.

На фиг.4 показан частотный отклик подходящего фильтра пропускания T[k]. На фиг.5 показан подходящий набор откликов фильтра критической полосы, соответствующий Cb[k], в котором 40 полос равномерно разнесены по шкале ERB (Moore and Glasberg Equivalent Rectangular Bandwidth, эквивалентная прямоугольная ширина полосы), для примерной частоты 48 кГц и размера преобразования M=2048. Округленная экспоненциальная функция описывает каждую форму фильтра, и полосы разделены на 1 ERB.

Если границы слухового события вычисляются из спектра удельной громкости по Crocket и Seefeldt, то сигнал возбуждения E[b,t] уже существует как часть вычисления удельной громкости.

И наконец, вычисляется спектральная асимметрия из сигнала возбуждения E[b,t] как:

,

где µ - среднее арифметическое возбуждения:

и σ - изменчивость сигнала возбуждения:

Сигнал асимметрии SK[t] Уравнения (5) значительно флуктуирует и требует сглаживания, чтобы избежать артефактов при изменении сигнала регулирования событием и последующих параметров динамической обработки. В одном варианте используется однополюсная схема сглаживания с постоянной затухания α, имеющей время полуспада приблизительно 6,5 мс:

SK'[t]=αSKSK'[t-1]+(1-αSK)SK[t] (8)

Может быть полезным ограничить асимметрию максимумом и минимумом, SKmax and SKmin, соответственно. Значительную асимметрию SK"[t] можно вычислить как:

Низкие значения (близкие к 0,0) сигнала асимметрии SK"[t] обычно соответствуют характеристически более тихим сигналам, а высокие значения асимметрии (близкие к 1,0) обычно соответствуют более характеристически громким сигналам. На фиг.3 график "e)" изображает сигнал асимметрии, который соответствует звуковому сигналу на графике "a)" фиг.3. Эта асимметрия высокая для более громких пачек диалога и низкая для фоновых звуков.

Сигнал асимметрии SK"[t] поступает в модуль 20 идентификации слуховых событий на фиг.2, который присваивает весовой коэффициент мере спектральной разности D[t] как:

DSK[t]=SK"[t]D[t] (8)

Сигнал силы A[t], измененный по асимметрии, вычисляется так же, как A[t] в Уравнении (1):

Сигнал силы A[t], измененный по асимметрии, сглаживается так же, как A[t], в Уравнении (2):

На фиг.3, график "f)" показывает сигнал регулирования событием, измененный по асимметрии, для соответствующего звукового сигнала графика "a)" фиг.3. Меньшее количество слуховых событий происходит во время фоновых звуков, тогда как события, соответствующие более громкому диалогу, остаются.

На фиг.3 график "g)" изображает сигнал РДД, контролируемый событиями с изменением по асимметрии. При меньшем количестве событий в звуках фона усиление РДД остается относительно постоянным и перемещается только для более громких секций диалога. График "h)" на фиг.3 показывает результирующий звуковой сигнал, измененный посредством РДД.

Измененный посредством РДД звуковой сигнал вообще не имеет нежелательных нарастаний уровня во время фоновых звуков.

Сигнал асимметрии SK"[t] иногда понижается для сигналов, воспринимаемых как более громкие. Для этих громких сигналов значение меры спектральной разности D[t] достаточно велико, чтобы даже после присвоения весовых коэффициентов сигналом асимметрии SK"[t] в Уравнении 8 мера с присвоенным весовым коэффициентом спектральной разности D[t] была все же достаточно большой, чтобы указывать границу слухового события. Сигнал регулирования событием не подвергается никакому отрицательному воздействию.

1. Способ управления сигнальной обработкой звукового сигнала, содержащий этапы, на которых
разделяют звуковой сигнал на слуховые события, причем каждое из которых воспринимают как отдельное и отличное, посредством обнаружения изменений в спектральном составе относительно времени, причем упомянутое разделение включает в себя этап, на котором обнаруживают местоположение и силу границ слуховых событий в звуковом сигнале,
получают динамически изменяющуюся меру спектральной асимметрии звукового сигнала, причем спектральная асимметрия является статистической мерой асимметрии распределения вероятности спектра звукового сигнала,
изменяют силу границ слуховых событий в зависимости от упомянутой меры таким образом, что чем меньше асимметричен спектр на местоположении границы слухового события, тем больше уменьшают силу границы слухового события, и
управляют сигнальной обработкой сигнала в зависимости от местоположения и измененной на основании асимметрии силы границ слуховых событий.

2. Способ по п.1, в котором этап разделения звукового сигнала на слуховые события включает в себя этап, на котором анализируют спектр звукового сигнала.

3. Способ по п.2, в котором этап получения динамически изменяющейся меры спектральной асимметрии звукового сигнала включает в себя этап, на котором вычисляют асимметрию из спектрального представления звукового сигнала.

4. Способ по п.3, в котором этап вычисления асимметрии включает в себя этап, на котором вычисляют сигнал возбуждения, аппроксимирующий распределение энергии вдоль базилярной мембраны внутреннего уха.

5. Способ по п.1, в котором этап разделения звукового сигнала на слуховые события включает в себя этап, на котором преобразуют звуковой сигнал в область воспринимаемой громкости, причем упомянутое преобразование включает в себя этап, на котором вычисляют сигнал возбуждения, аппроксимирующий распределение энергии вдоль базилярной мембраны внутреннего уха.

6. Способ по п.5, в котором этап получения динамически изменяющейся меры спектральной асимметрии звукового сигнала включает в себя этап, на котором вычисляют асимметрию из сигнала возбуждения.

7. Способ по любому из пп.1-6, в котором упомянутая мера спектральной асимметрии является сглаженной мерой.

8. Машиночитаемое запоминающее устройство, содержащее программу для вычислительной машины для выполнения способа по любому из пп.1-7.

9. Вычислительная система для управления сигнальной обработкой звукового сигнала, содержащая
центральное процессорное устройство (ЦПУ),
запоминающее устройство по п.8 и
шину, соединяющую с возможностью обмена данными ЦПУ и запоминающее устройство.

10. Устройство для управления сигнальной обработкой звукового сигнала, содержащее средство, выполненное с возможностью выполнения способа по любому из пп.1-7.



 

Похожие патенты:

Изобретение относится к обработке звуковых сигналов, относящейся к измерению и регулированию воспринимаемой громкости звука и/или воспринимаемого спектрального баланса звукового сигнала.

Изобретение относится к кодированию речи. .

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости.

Изобретение относится к адаптивным способам выделения по меньшей мере одного искомого электромагнитного, звукового или любого другого сигнала и подавления других шумовых сигналов или помех с целью получения улучшенного сигнала, выделяемого из микшированной совокупности сигналов.

Изобретение относится к мобильным коммуникационным устройствам, в частности, имеющим средства для улучшения разборчивости выводимых ими аудиосигналов в присутствии внешнего шума.

Изобретение относится к понижению шума, в частности к удалению шума из речевых сигналов. .

Изобретение относится к обработке широкополосных речевых сигналов. .

Изобретение относится к обработке сигналов звукозаписи, в частности к повышению разборчивости звукозаписи развлекательных программ, таких как телевизионная звукозапись

Изобретение относится к области кодирования и декодирования звука, в частности, с расширением диапазона рабочих частот (BWE)

Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов

Изобретение относится к обработке аудиосигнала, в частности к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала

Изобретение относится к подавлению шума и более конкретно к интеллектуальной системе (100) шумоподавления

Изобретение относится к обработке звукового сигнала, в частности к производству нескольких выходных каналов из меньшего количества входных каналов, например, из одного (моно) канала или двух (стерео) входных каналов

Изобретение относится к воспроизведению аудио контента, в частности к способам расширения полосы частот

Изобретение относится к обработке звуковых сигналов, в частности, к улучшению четкости диалога и устной речи, например, в объемном развлекательном звуковом сопровождении
Наверх