Перцептивная оценка темпа с масштабируемой сложностью



Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью
Перцептивная оценка темпа с масштабируемой сложностью

 


Владельцы патента RU 2507606:

ДОЛБИ ИНТЕРНЕШНЛ АБ (NL)

Использование: изобретение относится к способам и системам для оценки темпа мультимедийного сигнала, воспринимаемого слушателями, а также к способам и системам для оценки темпа с масштабируемой вычислительной сложностью. Сущность: описан способ и система для извлечения информации о темпе звукового сигнала из кодированного битового потока звукового сигнала, включающего данные репликации спектральной полосы. Способ включает этапы определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток в некотором временном интервале звукового сигнала; повторение этапа определения для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, определения последовательности величин полезной нагрузки; идентификации периодичности в последовательности величин полезной нагрузки; и извлечения из идентифицированной периодичности информации о темпе звукового сигнала. Технический результат: создание возможности оценки темпа, инвариантной к типу кодека или применимой к музыкальному жанру любого рода. 6 н. и 16 з.п. ф-лы, 4 табл., 13 ил.

 

ОБЛАСТЬ ТЕХНИКИ

Настоящий документ относится к способам и системам для оценки темпа мультимедийного сигнала, такого как звуковой сигнал или комбинированный видео/аудиосигнал. В частности, документ относится к оценке темпа, воспринимаемого слушателями, а также к способам и системам для оценки темпа с масштабируемой вычислительной сложностью.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

Переносные карманные устройства, например PDA, смартфоны, мобильные телефоны и переносные мультимедийные проигрыватели, которые, как правило, включают возможности для представления звуковых и видеоданных, стали важными развлекательными платформами. Их развитие продвигается вперед путем проникновения беспроводных или проводных возможностей для передачи данных в эти устройства. Благодаря поддержке передачи мультимедийных данных и/или протоколов хранения информации, таких как формат НЕ-ААС, мультимедийное информационное наполнение может постоянно загружаться и храниться на переносном карманном устройстве, и, таким образом, обеспечивается практически неограниченное количество мультимедийного информационного наполнения.

Однако для мобильных/карманных устройств ключевыми являются алгоритмы с низкой сложностью, поскольку критическими ограничениями для таких устройств являются ограниченная вычислительная мощность и энергопотребление. Эти ограничения являются еще более критичными для карманных устройств низкого уровня на развивающихся рынках. В виду большого количества мультимедийных файлов, имеющихся в наличии на типичных переносных электронных устройствах, для кластеризации или классификации мультимедийных файлов желательными инструментальными программными средствами являются приложения MIR (Music Information Retrieval), позволяющие пользователю переносного электронного устройства идентифицировать соответствующий мультимедийный файл, например, звуковой, музыкальный и/или видеофайл. Существует потребность в схемах вычислений с низкой сложностью для указанных приложений MIR, поскольку иначе их применимость для переносных электронных устройств, имеющих ограниченные вычислительные и энергетические ресурсы, может быть скомпрометирована.

Важным характерным признаком музыки для различных приложений MIR, таких как классификация жанра и настроения, реферирование музыки, создание эскизов аудиоданных, автоматическое генерирование списка воспроизведения, системы рекомендации музыки, использующие музыкальное подобие, и т.д., является музыкальный темп. Поэтому процедура определения темпа, имеющая низкую вычислительную сложность, могла бы внести вклад в развитие децентрализованных реализации упомянутых приложений MIR для мобильных устройств.

Кроме того, несмотря на то, что общепринятым является описание музыкального темпа посредством йотированного темпа в нотной записи, или музыкального сопровождения - в ВРМ (число ударов в минуту), эта величина часто не соответствует воспринимаемому темпу. Например, если попросить группу слушателей (включающую опытных музыкантов) прокомментировать темп музыкальных отрывков, они, как правило, дадут разные ответы, т.е. они обычно отбивают темп на разных метрических уровнях. Для некоторых музыкальных отрывков воспринимаемый темп менее неоднозначен, и все слушатели, как правило, отбивают темп на одинаковом метрическом уровне, но для других музыкальных отрывков темп может быть неоднозначен, и разные слушатели идентифицируют различные темпы. Иными словами, перцептивные эксперименты показали, что воспринимаемый темп может отличаться от йотированного темпа. Музыкальный фрагмент может ощущаться более быстрым или более медленным, чем его йотированный темп, в том случае, когда доминантный воспринимаемый ритм может иметь метрический уровень более высокий или более низкий, чем йотированный темп. В виду того, что приложения MIR должны преимущественно учитывать темп, воспринимаемый пользователем с наибольшей вероятностью, автоматическое устройство для извлечения темпа должно предсказывать перцептивно наиболее выраженный темп звукового сигнала.

Известные способы и системы оценки темпа обладают различными недостатками. Во многих случаях они ограничиваются конкретными аудиокодеками, например, МРЗ, и не могут применяться для звуковых дорожек, которые кодируются другими кодеками. Также указанные способы оценки темпа, как правило, функционируют надлежащим образом только при их применении для западной популярной музыки, имеющей простые и четкие ритмические структуры. Кроме того, известные способы оценки темпа не учитывают особенности восприятия, т.е. они не направлены на оценку темпа, который с наибольшей вероятностью воспринимается слушателем. Наконец, известные схемы оценки темпа, как правило, функционируют только в несжатой области РСМ (импульсно-кодовой модуляции), области преобразования или сжатой области.

Желательным является создание способов и систем оценки темпа, которые преодолевали бы вышеупомянутые изъяны известных схем оценки темпа. В частности, желательным является создание оценки темпа, инвариантной к типу кодека и/или применимой к музыкальному жанру любого рода. Кроме того, желательным является создание схемы оценки темпа, которая оценивала бы перцептивно наиболее выраженный темп звукового сигнала. Также желательна схема оценки темпа, которая была бы применима к звуковым сигналам в любой из вышеупомянутых областей, т.е. в несжатой области РСМ, области преобразования и сжатой области. Также желательно создание схем оценки темпа с низкой вычислительной сложностью.

Схемы оценки темпа могут использоваться в различных приложениях. Поскольку темп в музыке представляет фундаментальную семантическую информацию, надежная оценка темпа будет увеличивать эффективность других приложений MIR, таких как автоматическая классификация жанров на основе информационного наполнения, классификация настроений, музыкальное подобие, создание эскизов аудиоданных и реферирование музыки. Кроме того, надежная оценка воспринимаемого темпа представляет полезную статистику для выбора музыки, сопоставления, микширования и создания списков воспроизведения. Воспринимаемый темп, или ощущение, как правило более значим, чем йотированный или физический темп, в особенности, для автоматического генератора списков воспроизведения, музыкальных программ-навигаторов или аппаратуры диск-жокеев. Кроме того, надежная оценка воспринимаемого темпа может оказаться полезной для игровых приложений. Например, темп звуковой дорожки может использоваться для управления соответствующими параметрами игры, такими как скорость игры, и наоборот. Это может использоваться для персонализации информационного наполнения игр с использованием звуковой информации и для обеспечения пользователей расширенным опытом. Другое поле применения может представлять собой синхронизацию звука/видео на основе информационного наполнения, где музыкальный метр, или темп, представляет первичный источник информации, используемый в качестве привязки для отметки времени событий.

Следует отметить, что в настоящем документе термин «темп» понимается как скорость тактовых ударов. Указанный такт также называется скоростью отбивания темпа ногой, т.е. скоростью, с которой слушатели отбивают темп ногой при прослушивании звукового сигнала, например, музыкального сигнала. Этот термин отличается от музыкального размера, определяющего иерархическую структуру музыкального сигнала.

В документе WO 2006/037366 A1 описано устройство и способ генерации кодированного ритмического рисунка отрывка музыкального произведения на основе РСМ представления во временной области. В документе US 7518053 В1 описан способ извлечения ударов из двух аудиопотоков и выравнивания ударов указанных двух аудиопотоков.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Согласно одной из особенностей, описан способ извлечения информации темпа звукового сигнала из кодированного битового потока звукового сигнала, где кодированный битовый поток включает данные репликации спектральной полосы. Кодированный битовый поток может представлять собой битовый поток НЕ-ААС или битовый поток mp3PRO. Звуковой сигнал может включать музыкальный сигнал, а извлекаемая информация о темпе может включать оценку темпа музыкального сигнала.

Способ может включать этап определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток, для некоторого временного интервала звукового сигнала. В особенности в том случае, когда кодированный битовый поток представляет собой битовый поток НЕ-ААС, последний этап может включать определение количества данных, заключаемых в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале, и определение величины полезной нагрузки на основе количества данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале.

Поскольку данные репликации спектральной полосы могут кодироваться с использованием фиксированного заголовка, может оказаться полезным удаление этого заголовка перед извлечением информации о темпе. В частности, способ может включать этап определения количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале. Кроме того, сумма нетто данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале, может определяться путем вычитания количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале. Следовательно, биты заголовка удаляются, и величина полезной нагрузки может определяться на основе суммы нетто количества данных. Следует отметить, что если заголовок репликации спектральной полосы имеет фиксированную длину, способ может включать подсчет количества Х заголовков репликации спектральной полосы во временном интервале и Х-кратное вычитание длины заголовка из количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале.

В одном из вариантов осуществления изобретения величина полезной нагрузки соответствует величине суммы нетто данных репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в определенном временном интервале. В альтернативном варианте или в дополнение, для определения текущих данных репликации спектральной полосы дополнительные служебные данные могут удаляться из одного или нескольких полей fill-element.

Кодированный битовый поток может включать ряд кадров, где каждый кадр соответствует некоторому отрывку звукового сигнала с предварительно заданной продолжительностью во времени. Например, кадр может включать отрывок в несколько миллисекунд музыкального сигнала. Временной интервал может соответствовать продолжительности во времени, покрываемой кадром кодированного битового потока. Например, кадр ААС, как правило, включает, 1024 спектральных значений, например коэффициентов MDCT. Спектральные значения являются частотным представлением конкретного момента времени, или временного интервала, звукового сигнала. Взаимосвязь между временем и частотой может быть выражена следующим образом:

fS=2·fMAX, и t = 1 f S ,

где fMAX - охватываемый диапазон частот, fS - частота дискретизации, и t - разрешающая способность по времени, т.е. временной интервал звукового сигнала, охватываемый кадром. Для частоты дискретизации fS=44100 Гц, это соответствует разрешающей способности по времени t = 1 0 2 4 4 4 1 0 0 H z = 2 3 , 2 1 9 мс для кадра ААС. Поскольку в одном из вариантов осуществления НЕ-ААС определяется как «система с удвоенной частотой», где ее базовый кодер (ААС) функционирует на половине частоты дискретизации, можно достичь максимальной разрешающей способности по времени t = 1 0 2 4 2 2 0 5 0 H z = 4 6 , 4 3 9 9 мс.

Способ может включать дополнительный этап повторения определенного выше этапа для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, определения последовательности величин полезной нагрузки. Если кодированный битовый поток включает последовательность кадров, то указанный этап повторения может выполняться для определенного набора кадров кодированного битового потока, т.е. для всех кадров кодированного битового потока.

На следующем этапе способ может идентифицировать периодичность в последовательности величин полезной нагрузки. Этого можно достичь путем идентификации периодичности пиков, или повторяющихся паттернов, в последовательности величин полезной нагрузки. Идентификация периодичностей может осуществляться путем выполнения спектрального анализа на последовательности величин полезной нагрузки, дающего набор значений энергии и соответствующих частот. Периодичность может быть идентифицирована в последовательности величин полезной нагрузки путем определения относительного максимума набора значений энергии и путем выбора периодичности как соответствующей частоты. В одном из вариантов осуществления изобретения определяется абсолютный максимум.

Спектральный анализ, как правило, выполняется для последовательности величин полезной нагрузки вдоль оси времени. Кроме того, спектральный анализ, как правило, выполняется на ряде подпоследовательностей последовательности величин полезной нагрузки, таким образом, давая ряд наборов значений энергии. Например, подпоследовательности могут покрывать определенную продолжительность звукового сигнала, например, 6 секунд. Кроме того, подпоследовательности могут перекрываться друг с другом, например, на 50%. Таким образом, может быть получен ряд наборов значений энергии, где каждый набор значений энергии соответствует определенному отрывку звукового сигнала. Полный набор значений энергии для всего звукового сигнала может быть получен путем усреднения ряда наборов значений энергии. Следует понимать, что термин «усреднение» покрывает различные типы математических операций, таких как вычисление среднего значения или определение срединного значения. Т.е. полный набор значений энергии может быть получен путем вычисления набора средних значений энергии, или набора срединных значений энергии, для ряда наборов значений энергии. В одном из вариантов осуществления изобретения выполнение спектрального анализа включает выполнение частотного преобразования, такого как преобразование Фурье, или FFT.

Наборы значений энергии могут подвергаться дальнейшей обработке. В одном из вариантов осуществления изобретения набор значений энергии умножается на весовые коэффициенты, связанные с предпочтительностью человеческого восприятия соответствующих им частот. Например, указанные перцептивные весовые коэффициенты могут охватывать частоты, которые соответствуют темпам, которые чаще обнаруживаются людьми, в то время как частоты, соответствующие темпам, которые реже обнаруживаются людьми, ослабляются.

Способ может включать дополнительный этап извлечения информации о темпе звукового сигнала из идентифицированной периодичности. Этот этап может включать определение частоты, соответствующей абсолютному максимальному значению из набора значений энергии. Эта частота может быть названа физически выраженным темпом звукового сигнала.

Согласно следующей особенности описан способ оценки перцептивно выраженного темпа звукового сигнала. Перцептивно выраженный темп может представлять собой темп, который чаще всего воспринимается группой пользователей при прослушивании звукового сигнала, например, музыкального сигнала. Как правило, он отличается от физически выраженного темпа звукового сигнала, который может быть определен как физически, или акустически, наиболее выраженный темп звукового сигнала, например, музыкального сигнала.

Способ может включать этап определения спектра модуляции звукового сигнала, где спектр модуляции, как правило, включает ряд частот появления события и соответствующий ряд значений значимости, где значения значимости указывают на относительную значимость соответствующих частот появления события в звуковом сигнале. Иными словами, частоты появления события указывают на определенные периодичности в звуковом сигнале, в то время как соответствующие им значения значимости указывают на значимость указанных периодичностей в звуковом сигнале. Например, периодичность может представлять кратковременный звук в звуковом сигнале, например, звук басового барабана в музыкальном сигнале, который возникает в периодически повторяющиеся моменты времени. Если этот кратковременный звук является характерным, то значение значимости, соответствующее этой периодичности, как правило, будет высоким.

В одном из вариантов осуществления изобретения звуковой сигнал представлен последовательностью дискретных значений РСМ вдоль оси времени. В этих случаях этап определения спектра модуляции может включать этапы выбора ряда последовательных, частично перекрывающихся подпоследовательностей из последовательности дискретных значений РСМ; определение для ряда последовательных подпоследовательностей ряда последовательных энергетических спектров, имеющих некоторое спектральное разрешение; уплотнение спектрального разрешения ряда последовательных энергетических спектров с использованием частотного преобразования Mel или любого другого перцептивно мотивированного нелинейного частотного преобразования; и/или выполнение спектрального анализа вдоль оси времени на ряде последовательных уплотненных энергетических спектров, и, таким образом, получение ряда значений значимости и соответствующих им частот появления события.

В одном из вариантов осуществления изобретения звуковой сигнал представлен последовательностью последовательных блоков коэффициентов поддиапазонов вдоль оси времени. Указанные коэффициенты поддиапазонов могут, например, представлять собой коэффициенты MDCT, как, например, в случае кодеков МР3, ААС, НЕ-ААС, Dolby Digital и Dolby Digital Plus. В этих случаях этап определения спектра модуляции может включать уплотнение количества коэффициентов поддиапазонов в блоке с использованием частотного преобразования Mel; и/или выполнение спектрального анализа вдоль оси времени на последовательности из последовательных блоков уплотненных коэффициентов поддиапазонов, что, таким образом, дает ряд значений значимости и соответствующих им частот появления события.

В одном из вариантов осуществления изобретения звуковой сигнал представлен кодированным битовым потоком, включающим данные репликации спектральной полосы и ряд последовательных кадров вдоль оси времени. Например, кодированный битовый поток может представлять собой битовый поток НЕ-ААС или битовый поток mp3PRO. В этих случаях этап определения спектра модуляции может включать определение последовательности величин полезной нагрузки, связанной с количеством данных репликации спектральной полосы, в последовательности кадров кодированного битового потока; выбор ряда последовательных, частично перекрывающихся подпоследовательностей из последовательности величин полезной нагрузки; и/или выполнение спектрального анализа вдоль оси времени на ряде последовательных подпоследовательностей, что, таким образом, дает ряду значений значимости и соответствующих им частот появления события. Иными словами, спектр модуляции может определяться в соответствии с описанным выше способом.

Кроме того, этап определения спектра модуляции может включать обработку, предназначенную для улучшения спектра модуляции. Эта обработка может включать умножение ряда значений значимости на весовые коэффициенты, связанные с предпочтительностью человеческого восприятия соответствующих им частот появления события.

Способ может включать дополнительный этап определения физически выраженного темпа как частоты появления события, соответствующей максимальному значению ряда значений значимости. Указанное максимальное значение может представлять собой абсолютное максимальное значение ряда значений значимости.

Способ может включать дополнительный этап определения размера такта звукового сигнала из спектра модуляции. В одном из вариантов осуществления изобретения размер такта указывает взаимосвязь между физически выраженным темпом и, по меньшей мере, еще одной частотой появления события, соответствующей относительно высокому значению из ряда значений значимости, например, второму по величине значению из ряда значений значимости. Размер такта может иметь одно из значений ряда: 3, например, в случае размера ¾; или 2, например, в случае размера 4/4. Размер такта может являться фактором, связанным с соотношением между физически выраженным темпом и, по меньшей мере, еще одним выраженным темпом, т.е. с частотой появления события, соответствующей относительно высокому значению из ряда значений значимости звукового сигнала. В общем случае размер такта может представлять взаимосвязь между рядом физически выраженных темпов звукового сигнала, например, между двумя физически наиболее выраженными темпами звукового сигнала.

В одном из вариантов осуществления изобретения определение размера такта включает этапы определения автокорреляции спектра модуляции для ряда ненулевых запаздываний по частоте; и/или определение размера такта на основе соответствующего запаздывания по частоте и физически выраженного темпа. Определение размера такта также может включать этапы определения взаимной корреляции между спектром модуляции и рядом синтезированных функций отбивания темпа, соответствующих ряду размеров такта, соответственно; и/или выбора размера такта, который приводит к максимальной взаимной корреляции.

Способ может включать этап определения индикатора воспринимаемого темпа на основе спектра модуляции. Первый индикатор воспринимаемого темпа может определяться как среднее значение ряда значений значимости, нормированное на максимальное значение ряда значений значимости. Второй индикатор воспринимаемого темпа может определяться как максимальное значение значимости в ряду значений значимости. Третий индикатор воспринимаемого темпа может определяться как центроидная частота появления события в спектре модуляции.

Способ может включать этап определения перцептивно выраженного темпа путем модификации физически выраженного темпа в соответствии с размером такта, где этап модификации учитывает соотношение между индикатором воспринимаемого темпа и физически выраженным темпом. В одном из вариантов осуществления изобретения этап определения перцептивно выраженного темпа включает определение того, превышает ли первый индикатор воспринимаемого темпа первое пороговое значение; и модификацию физически выраженного темпа только в том случае, если первое пороговое значение превышено. В одном из вариантов осуществления изобретения этап определения перцептивно выраженного темпа включает определение того, находится ли второй индикатор воспринимаемого темпа ниже второго порогового значения; и модификацию физически выраженного темпа, если второй индикатор воспринимаемого темпа находится ниже второго порогового значения.

В альтернативном варианте или в дополнение, этап определения перцептивно выраженного темпа может включать определение несоответствия между третьим индикатором воспринимаемого темпа и физически выраженным темпом; и, если несоответствие определено, модификацию физически выраженного темпа. Несоответствие может определяться, например, путем определения того, что третий индикатор воспринимаемого темпа находится ниже третьего порогового значения, а физически выраженный темп находится выше четвертого порогового значения; и/или путем определения того, что третий индикатор воспринимаемого темпа находится выше пятого порогового значения, а физически выраженный темп находится ниже шестого порогового значения. Как правило, по меньшей мере одно из пороговых значений, третьего, четвертого, пятого и шестого, связано с предпочтениями человеческого восприятия темпа. Указанные предпочтения восприятия темпа могут указывать на корреляцию между третьим индикатором воспринимаемого темпа и субъективным восприятием скорости звукового сигнала, воспринимаемого группой пользователей.

Этап модификации физически выраженного темпа в соответствии с дольным размером может включать повышение метрического уровня до следующего по высоте метрического уровня относительно основного такта; и/или понижение метрического уровня до следующего менее высокого метрического уровня относительно основного такта. Например, если основным тактом является такт 4/4, повышение метрического уровня может включать повышение физически выраженного темпа, например, темпа, соответствующего четвертным нотам, в 2 раза, что, таким образом, приводит к следующему по высоте темпу, соответствующему восьмым нотам. Аналогично, понижение метрического уровня может включать деление на 2, например, смещение от темпа на основе 1/8 к темпу на основе ¼.

В одном из вариантов осуществления изобретения повышение, или понижение, метрического уровня может включать умножение, или деление, физически выраженного темпа на 3 в случае такта ¾; и/или умножение, или деление, физически выраженного темпа на 2 - в случае такта 4/4.

Согласно следующей особенности описана программа, реализованная программно, которая адаптирована для исполнения на процессоре и для выполнения этапов способа, описанного в настоящем документе, при осуществлении на вычислительном устройстве.

Согласно следующей особенности, описан носитель данных, который включает программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способа, описанного в настоящем документе, при осуществлении на вычислительном устройстве.

Согласно следующей особенности, описан компьютерный программный продукт, который включает исполняемые команды для выполнения способа, описанного в настоящем документе, при исполнении на компьютере.

Согласно следующей особенности, описано переносное электронное устройство. Устройство может включать блок памяти, сконфигурированный для хранения в памяти звукового сигнала; блок воспроизведения звукового сигнала, сконфигурированный для воспроизведения звукового сигнала; пользовательский интерфейс, сконфигурированный для приема запроса от пользователя на информацию о темпе звукового сигнала; и/или процессор, сконфигурированный для определения информации о темпе путем выполнения этапов способа, описанного в настоящем документе, на звуковом сигнале.

Согласно еще одной особенности, описана система, сконфигурированная для извлечения информации о темпе звукового сигнала из кодированного битового потока, включающего данные репликации спектральной полосы звукового сигнала, например, битового потока НЕ-ААС. Система может включать средства для определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток в некотором временном интервале звукового сигнала; средства для повторения этапа определения для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, для определения последовательности величин полезной нагрузки; и/или средства для извлечения информации о темпе звукового сигнала из идентифицированной периодичности.

Согласно следующей особенности, описана система, сконфигурированная для оценки перцептивно выраженного темпа звукового сигнала. Система может включать средства для определения спектра модуляции звукового сигнала, где спектр модуляции включает ряд частот появления события и соответствующих значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале; средства для определения физически выраженного темпа как частоты появления события, соответствующей максимальному значению ряда значений значимости; средства для определения индикатора воспринимаемого темпа из спектра модуляции; и средства для определения перцептивно выраженного темпа путем модификации физически выраженного темпа в соответствии с размером такта, где этап модификации учитывает соотношение между индикатором воспринимаемого темпа и физически выраженным темпом.

Согласно еще одной особенности, описан способ генерирования кодированного битового потока звукового сигнала, включающего метаданные. Способ может включать этап кодирования звукового сигнала в последовательность данных полезной нагрузки, что, таким образом, приводит к кодированному битовому потоку. Например, звуковой сигнал может кодироваться в битовый поток НЕ-ААС, МР3, ААС, Dolby Digital или Dolby Digital Plus. В альтернативном варианте или в дополнение, способ может основываться на уже кодированном битовом потоке, например, способ может включать этап приема кодированного битового потока.

Способ может включать этапы определения метаданных, связанных с темпом звукового сигнала, и вставлять метаданные в кодированный битовый поток. Метаданные могут являться данными, представляющими физически выраженный темп и/или перцептивно выраженный темп звукового сигнала. Также метаданные могут являться данными, представляющими спектр модуляции из звукового сигнала, где спектр модуляции включает ряд частот появления события и соответствующий ряд значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале. Следует отметить, что метаданные, связанные с темпом звукового сигнала, могут быть определены в соответствии с любым из способов, описанных в настоящем документе. Т.е. темпы и спектры модуляции могут быть определены в соответствии со способами, описанными в данном документе.

Согласно следующей особенности, описан кодированный битовый поток звукового сигнала, включающий метаданные. Кодированный битовый поток может представлять собой битовый поток НЕ-ААС, МР3, AAC, Dolby Digital или Dolby Digital Plus. Метаданные могут включать данные, представляющие, по меньшей мере, физически выраженный темп и/или перцептивно выраженный темп звукового сигнала; или спектр модуляции звукового сигнала, где спектр модуляции звукового сигнала включает ряд значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале. В частности, метаданные могут включать данные, представляющие данные о темпе и данные спектра модуляции, генерируемые способами, описанными в настоящем документе.

Согласно еще одной особенности, описан аудиодекодер, сконфигурированный для генерирования кодированного битового потока звукового сигнала, включающего метаданные. Кодер может включать средства для кодирования звукового сигнала в последовательность данных полезной нагрузки, что, таким образом, приводит к кодированному битовому потоку; средства для определения метаданных, связанных с темпом звукового сигнала; и средства для вставки метаданных в кодированный битовый поток. Аналогично описанному выше способу, кодер может полагаться на уже существующий кодированный битовый поток, и кодер может включать средства для приема кодированного битового потока.

Следует отметить, что, согласно следующей особенности, описан соответствующий способ декодирования кодированного битового потока звукового сигнала и соответствующий декодер, сконфигурированный для декодирования кодированного битового потока звукового сигнала. Способ и декодер сконфигурированы для извлечения из кодированного битового потока соответствующих метаданных, в особенности, метаданных, связанных информацией о темпе.

Следует отметить, что варианты осуществления и особенности изобретения, описанные в данном документе, могут комбинироваться произвольно. В частности, следует отметить, что особенности и характерные признаки, описанные в контексте системы, также применимы и в контексте соответствующего способа и наоборот. Кроме того, следует отметить, что раскрытие настоящего документа также покрывает и иные сочетания пунктов формулы изобретения, чем те комбинации пунктов формулы изобретения, которые в прямой форме даны обратными отсылками в независимых пунктах формулы изобретения, т.е пункты формулы изобретения и их характерные технические признаки могут комбинироваться в любом порядке и в любой форме.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

Ниже настоящее изобретение будет описано посредством иллюстративных примеров, не ограничивающих объем или дух изобретения, с отсылкой к сопроводительным графическим материалам, где:

фиг.1 иллюстрирует пример резонансной модели для больших музыкальных коллекций в зависимости от отбиваемых темпов для единичного музыкального отрывка;

фиг.2 показывает пример чередования коэффициентов MDCT для коротких блоков;

фиг.3 показывает пример шкалы Mel и пример блока фильтров в шкале Mel;

фиг.4 иллюстрирует пример компандирующей функции;

фиг.5 иллюстрирует пример весовой функции;

фиг.6 иллюстрирует примеры энергетического спектра и спектра модуляции;

фиг.7 иллюстрирует пример элемента данных SBR;

фиг.8 иллюстрирует пример последовательности величин полезной нагрузки SBR и результирующий спектр модуляции;

фиг.9 иллюстрирует пример общего представления предлагаемых схем оценки темпа;

фиг.10 иллюстрирует пример сравнения предложенных схем оценки темпа;

фиг.11 иллюстрирует пример спектра модуляции для звуковых дорожек, имеющих различные размеры;

фиг.12 иллюстрирует пример экспериментальных результатов классификации воспринимаемых темпов; и

фиг.13 иллюстрирует пример блок-схемы системы оценки темпа.

ПОДРОБНОЕ ОПИСАНИЕ

Описанные ниже варианты осуществления изобретения являются единственно иллюстрациями принципов способов и систем для оценки темпа. Следует понимать, что модификации и изменения устройств и деталей, описанных в настоящем раскрытии, будут очевидны для специалистов в данной области. Поэтому намерение ограничивается только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными в данном раскрытии с целью описания и разъяснения вариантов осуществления изобретения.

Как указывалось во вводной части, известные схемы оценки темпа ограничены определенными областями представления сигнала, например, областью РСМ, областью преобразования или сжатой областью. В частности, не существует решения для оценки темпа, в котором его характерные признаки вычислялись бы непосредственно из сжатого битового потока НЕ-ААС без выполнения декодирования энтропии. Кроме того, существующие системы ограничены главным образом западной популярной музыкой.

Также существующие схемы не учитывают темп, воспринимаемый слушателями, и в результате возникают ошибки на октаву или неопределенность удваивания/уполовинивания периода. Указанная неопределенность может возникать в результате того, что в музыке различные инструменты играют с ритмами, периодичности которых являются неразрывно связанными кратными друг относительно друга. Как будет описываться ниже, то, что восприятие темпа зависит не только от частоты повторения периодичностей, но также находится под влиянием других факторов восприятия, является догадкой авторов изобретения, поэтому указанные неопределенности преодолеваются путем использования дополнительных характерных особенностей восприятия. На основе указанных дополнительных характерных особенностей восприятия выполняется коррекция извлекаемых темпов перцептивно мотивированным образом, т.е. вышеупомянутая неопределенность темпа уменьшается или удаляется.

Как уже подчеркивалось, если говорить о «темпе», то необходимо различать йотированный темп, физически измеряемый темп и воспринимаемый темп. Физически измеряемый темп получается из фактических измерений на дискретизированном звуковом сигнале, в то время как воспринимаемый темп имеет субъективный характер и, как правило, определяется в результате экспериментов по перцептивному прослушиванию. Кроме того, темп является характерной особенностью музыки, сильно зависящей от информационного наполнения, и иногда его очень трудно выявить автоматически, поскольку в некоторых звуковых, или музыкальных, дорожках несущая темп часть музыкального отрывка присутствует в неявном виде. Также на результаты оценки темпа значительное влияние оказывает музыкальный опыт слушателей и их сосредоточенность. Это может приводить к различиям в размере темпа, используемом при сопоставлении йотированного, физически измеряемого и воспринимаемого темпа. Тем не менее, физические и перцептивные подходы к оценке темпа могут использоваться в сочетании для того, чтобы корректировать друг друга. Это можно наблюдать, когда, например, полные или двойные ноты, которые соответствуют определенному количеству ударов в минуту (ВРМ) и его кратным, определены путем физического измерения на звуковом сигнале, но воспринимаемый темп оценивается как медленный. Следовательно, если предполагать, что физическое измерение является надежным, правильный темп оказывается медленнее, чем определяемый. Иными словами, схема оценки, сосредоточенная на оценке йотированного темпа, будет давать неоднозначные результаты оценки, соответствующие полным и двойным нотам. При объединении со способами оценки воспринимаемого темпа можно определить правильный (перцептивный) темп.

Широкомасштабные эксперименты по человеческому восприятию темпа показывают, что люди склонны к восприятию музыкального темпа в интервале 100-140 ВРМ с пиковым значением 120 ВРМ. Этот факт может быть смоделирован пунктирной резонансной кривой 101, показанной на фиг.1. Данная модель может использоваться при прогнозировании распределения темпов для больших наборов данных. Однако при сопоставлении с резонансной кривой 101 результатов экспериментов по отбиванию темпа для единичного музыкального файла, или дорожки, см. ссылочные позиции 102 и 103, можно видеть, что воспринимаемые темпы 102, 103 отдельной звуковой дорожки необязательно согласуются с моделью 101. Как видно, субъекты могут отбивать темп с различными метрическими уровнями 102 или 103, что иногда приводит к кривой, полностью отличающейся от модели 101. Это особенно верно для различного рода жанров и различного рода ритмов. Указанная метрическая неоднозначность приводит к высокой степени неопределенности при определении темпа и является вероятным объяснением в целом «неудовлетворительной» эффективности неперецептивно управляемых алгоритмов оценки темпа.

Для преодоления указанной неопределенности требуется новая схема перцептивно мотивированной коррекции темпа, где различным метрическим уровням присваивались бы весовые коэффициенты на основе извлечения некоторого количества акустических частотно-временных характеристик сигнала, т.е. музыкальных параметров, или характерных признаков. Указанные весовые коэффициенты могут использоваться для коррекции извлекаемых, вычисляемых физически темпов. В частности, такая коррекция может использоваться для определения перцептивно выраженного темпа.

Ниже описываются способы извлечения информации о темпе из области РСМ и области преобразования. Для этой цели может использоваться модуляционный спектральный анализ. Модуляционный спектральный анализ в общем может быть использован для захвата повторяемости музыкальных отрывков во времени. Он может использоваться для оценки долговременной статистики музыкальной дорожки, и/или он может использоваться для количественной оценки темпа. Спектры модуляции на основе энергетических спектров Mel могут быть определены для звуковой дорожки в несжатой области РСМ (импульсно-кодовой модуляции) и/или для звуковой дорожки в области преобразования, например, в области преобразования НЕ-ААС (высокоэффективное усовершенствованное аудиокодирование).

Для сигнала, представленного в области РСМ, спектр модуляции определяется напрямую из дискретных значений РСМ звукового сигнала. С другой стороны, для звуковых сигналов, представленных в области преобразования, например, в области преобразования НЕ-ААС, для определения спектра модуляции могут использоваться коэффициенты поддиапазонов сигнала. Для области преобразования НЕ-ААС спектр модуляции может быть определен на покадровой основе для определенного количества, например, 1024, коэффициентов MDCT (модифицированного дискретного косинусного преобразования), которые были взяты непосредственно из декодера НЕ-ААС в ходе декодирования или в ходе кодирования.

При работе в области преобразования НЕ-ААС может оказаться более полезным учитывать присутствие коротких и длинных блоков. И хотя короткие блоки, по причине их менее высокой разрешающей способности по частоте, могут пропускаться или отбрасываться при вычислении MFCC (коэффициентов косинусного преобразования Фурье в шкале частот Mel) или для вычисления косинусного преобразования Фурье в нелинейной шкале частот, при определении темпа звукового сигнала короткие блоки должны учитываться. Это особенно значимо для звуковых и речевых сигналов, которые содержат множество резких вступлений и, соответственно, большое количество коротких блоков для их высококачественного представления.

Для единичного кадра, если он включает восемь коротких блоков, предлагается выполнить чередование коэффициентов MDCT в длинный блок. Как правило, два типа блоков, длинные и короткие блоки, можно различить. В одном из вариантов осуществления изобретения длинный блок равен размеру кадра (т.е. 1024 спектральных коэффициентов, что соответствует определенной разрешающей способности по времени). Короткий блок включает 128 спектральных значений для того, чтобы добиваться в восемь раз более высокой разрешающей способности по времени (1024/128) для надлежащего представления характеристик звуковых сигналов во времени и во избежание артефактов опережающего эха. Следовательно, кадр формируется восемью короткими блоками за счет понижения разрешающей способности по частоте в те же восемь раз. Эта схема обычно называется «Схемой коммутации блоков в ААС».

Это показано на фиг.2, где коэффициенты MDCT для 8 коротких блоков 201-208 подвергаются чередованию так, чтобы соответствующие коэффициенты 8 коротких блоков перегруппировывались, т.е. так, чтобы перегруппировывались первые коэффициенты MDCT 8 блоков 201-208, затем - вторые коэффициенты MDCT 8 блоков 201-208, и т.д. Таким образом, соответствующие коэффициенты MDCT, т.е. коэффициенты MDCT, которые соответствуют одной и той же частоте, группируются вместе. Чередование коротких блоков в кадре можно понимать как операцию «искусственного» увеличения разрешающей способности по частоте в пределах кадра. Следует отметить, что можно предположить и другие средства увеличения разрешающей способности по частоте.

В проиллюстрированном примере блок 210, включающий 1024 коэффициентов MDCT получается для пакета из 8 коротких блоков. Поскольку длинные блоки также включают 1024 коэффициентов MDCT, для звукового сигнала получается полная последовательность блоков, включающая 1024 коэффициентов. Т.е. путем формирования длинных блоков 210 из восьми последовательных коротких блоков 201-208 получается последовательность длинных блоков.

На основе блока 210 из подвергнутых чередованию коэффициентов MDCT (в случае коротких блоков) и на основе блока из коэффициентов MDCT для длинных блоков, для каждого блока коэффициентов MDCT вычисляется энергетический спектр. Пример энергетического спектра проиллюстрирован на фиг.6а.

Следует отметить, что слуховое восприятие человека, в целом, является функцией (как правило, нелинейной) громкости и частоты, и при этом не все частоты воспринимаются с одинаковой громкостью. С другой стороны, коэффициенты MDCT представляются в линейной шкале как для амплитуды/энергии, так и для частоты, что противоречит слуховой системе человека, которая является нелинейной в обоих случаях. Для того, чтобы получить представление сигнала, более близкое к человеческому восприятию, могут использоваться преобразования из линейных шкал в нелинейные. В одном из вариантов осуществления изобретения для моделирования человеческого восприятия громкости используется преобразование энергетического спектра для коэффициентов MDCT в логарифмическую шкалу в дБ. Эта трансформация энергетического спектра может быть вычислена следующим образом:

MDCTdB[i]=10log10(MDCT[i]2).

Сходным образом, энергетическая спектрограмма энергетического спектра может быть вычислена для звукового сигнала в несжатой области РСМ. Для этого к звуковому сигналу применяется STFT (кратковременное преобразование Фурье) с определенной продолжительностью во времени. Соответственно, выполняется преобразование энергии. Для того, чтобы моделировать восприятие громкости человеком, может выполняться преобразование в нелинейную шкалу, как, например, преобразование в логарифмическую шкалу выше. Размер STFT может выбираться так, чтобы результирующая разрешающая способность по времени была равна разрешающей способности по времени для кадров НЕ-ААС. Однако размеру STFT также могут присваиваться и большие, и меньшие значения в зависимости от требуемой точности и вычислительной сложности.

На следующем этапе к модели нелинейности человеческого восприятия частот может применяться фильтрация с использованием блока фильтров Mel. Для этого, как показано на фиг.3, применяется нелинейная шкала частот (шкала Mel). Шкала 300 является приблизительно линейной для низких частот (<500 Гц) и логарифмической - для более высоких частот. Ссылочная позиция 301, указывающая линейную шкалу частот, представляет звук с частотой 1000 Гц, который определяется как 1000 Mel. Звук с основным тоном, воспринимаемым с удвоенной по высоте частотой, определяется как 2000 Mel, звук с основным тоном, воспринимаемым с половинной частотой, - как 500 Mel, и т.д. В математическом описании шкала Mel имеет вид:

mMel=1127.01048ln(1+fHz/700),

где fHz - частота в Гц, mMel - частота в Mel. Преобразование в шкалу Mel может осуществляться для моделирования нелинейного человеческого восприятия частот, и, более того, частотам могут присваиваться весовые коэффициенты для того, чтобы моделировать нелинейную человеческую чувствительность к частотам. Это может осуществляться путем использования треугольных фильтров с 50% перекрыванием в шкале частот Mel (или в любой другой нелинейной, перцептивно мотивированной шкале частот), где весовой коэффициент фильтра является обратным ширине полосы пропускания фильтра (нелинейная чувствительность). Это показано на фиг.3b, которая иллюстрирует пример блока фильтров в шкале Mel. Как видно, фильтр 302 имеет большую ширину полосы пропускания, чем фильтр 303. Следовательно, весовой коэффициент фильтра 302 меньше весового коэффициента фильтра 303.

Таким образом, получается энергетический спектр Mel, который представляет диапазон слышимых частот лишь несколькими коэффициентами. Пример энергетического спектра Mel показан на фиг.6b. В результате фильтрации в шкале Mel энергетический спектр сглаживается, теряются специфические детали на более высоких частотах. В иллюстративном случае шкала частот энергетического спектра Mel может быть представлена только 40 коэффициентами вместо 1024 коэффициентов MDCT на кадр для области преобразования НЕ-ААС и потенциально большего количества спектральных коэффициентов - для несжатой области РСМ.

Для того, чтобы дополнительно уменьшить количество данных о частоте до поддающегося интерпретации минимума, может быть введена компандирующая функция (СР), которая отображает более высокие полосы Mel в единые коэффициенты. Рациональное объяснение этому заключается в том, что, как правило, большая часть информации и энергии сигнала располагается в областях более низких частот. Экспериментально оцененная компандирующая функция показана в таблице 1, а соответствующая кривая 400 показана на фиг.4. В иллюстративном случае эта компандирующая функция уменьшает количество энергетических коэффициентов Mel до 12. Пример компандированного энергетического спектра Mel показана на фиг.6с.

Таблица 1
Индекс компандированной полосы Mel Индекс полосы Mel (сумма (…))
1 1
2 2
3 3-4
4 5-6
5 7-8
6 9-10
7 11-12
8 13-14
9 15-18
10 19-23
11 24-29
12 30-40

Следует отметить, что компандирующая функция может быть взвешенной для того, чтобы она могла охватывать различные частотные диапазоны. В одном из вариантов осуществления изобретения взвешивание может обеспечивать то, что уплотненные полосы частот будут отражать среднюю энергию частотных полос Mel, заключенных в некоторой компандированной полосе частот. Эта функция отличается от невзвешенной компандирующей функции, где уплотненные полосы частот отражают полную энергию частотных полос Mel, заключенных в некоторой компандированной полосе частот. В одном из вариантов осуществления изобретения взвешивание может быть обратно пропорциональным количеству частотных полос Mel, заключенных в некоторой компандированной полосе частот.

Для того, чтобы определить спектр модуляции, компандированный энергетический спектр Mel, или любой другой ранее определенный энергетический спектр, может сегментироваться на блоки, представляющие предварительно определенную продолжительность относительно продолжительности звукового сигнала. Кроме того, полезно определить частичное перекрывание блоков. В одном из вариантов осуществления изобретения выбираются блоки, соответствующие шестисекундной продолжительности звукового сигнала, с 50% перекрыванием по оси времени. Длина блоков может выбираться как компромисс между способностью охватывать долговременные характеристики звукового сигнала и вычислительной сложностью. Пример спектра модуляции, определенного на основе компандированного энергетического спектра Mel, показан на фиг.6d. Попутно следует упомянуть, что упомянутый подход к определению спектра модуляции не ограничивается спектральными данными, подвергнутыми Mel-фильтрации, но также может использоваться для получения долговременной статистики по существу для любой характерной особенности музыки или спектрального представления.

С целью получения модулированных по амплитуде частот для громкости для каждого из указанных сегментов, или блоков, вычисляется FFT по временной и частотной осям. Как правило, в контексте оценки темпа учитываются частоты модуляции в диапазоне 0-10 Гц, поскольку частоты модуляции за пределами этого диапазона, как правило, не являются значимыми. В результате анализа FFT, который определяется для энергетических спектральных данных по оси времени, или кадра, могут быть определены пиковые значения энергетического спектра и соответствующие элементы разрешения по частоте FFT. Частота, или элемент разрешения по частоте, для указанного пикового значения соответствует частоте энергетически интенсивного события на звуковой, или музыкальной, дорожке, и, таким образом, она является указанием темпа звуковой, или музыкальной, дорожки.

Для того, чтобы улучшить определение значимых пиков в уплотненном энергетическом спектре Mel, данные могут подвергаться дальнейшей обработке, такой как, например, перцептивное взвешивание и размывание границ. В виду того, что предпочтительность темпа для человека изменяется в зависимости от частоты модуляции, и того, что появление очень высоких и очень низких частот модуляции маловероятно, может быть введена перцептивная взвешивающая функция, охватывающая темпы с высокой вероятностью появления и подавляющая темпы, появление которых маловероятно. Экспериментально оцененная взвешивающая функция 500 показана на фиг.5. Взвешивающая функция 500 может применяться к любой полосе компандированного энергетического спектра Mel по оси частот модуляции каждого из сегментов, или блоков, звукового сигнала. Т.е. значения энергии каждой компандированной полосы Mel может быть умножено на взвешивающую функцию 500. Пример взвешенного спектра модуляции показан на фиг.6е. Следует отметить, что в случае, когда жанр музыки известен, может быть адаптирован взвешивающий фильтр, или взвешивающая функция. Например, если известно, что анализу подвергается электронная музыка, взвешивающая функция должна иметь пиковое значение около 2 Гц и должна быть ограничивающей за пределами довольно узкого диапазона. Иными словами, взвешивающие функции могут зависеть от музыкального жанра.

Для еще более широкого охвата изменений сигнала и для большего выражения ритмического содержимого спектра модуляции, может выполняться вычисление абсолютных разностей по оси частот модуляции. В результате могут быть усилены линии пиков в спектре модуляции. Пример дифференцированного спектра модуляции показан на фиг.6f.

Кроме того, может выполняться перцептивное размывание границ по полосам частот Mel или по оси частот Mel и оси частот модуляции. Как правило, этот этап сглаживает данные так, чтобы смежные линии частот модуляции объединялись в более широкую область, зависящую от амплитуды. Кроме того, размывание границ может снижать влияние зашумленных паттернов в данных и, таким образом, приводить к улучшенной визуальной интерпретируемости. Кроме того, размывание границ может адаптировать спектр модуляции к форме гистограмм отбивания темпа, полученных из индивидуальных экспериментов по отбиванию темпа для музыкальных объектов (как показано ссылочными позициями 102, 103 на фиг.1). Пример спектра модуляции с размытыми границами показан на фиг.6g.

В конечном итоге, объединенное частотное представление пакета сегментов, или блоков, звукового сигнала может усредняться для получения очень компактного, независящего от длины звукового файла спектра частотной модуляции Mel. Как уже было описано выше, термин «средний» может относиться к различным математическим операциям, включающим вычисление средних значений и определение срединного значения. Пример усредненного спектра модуляции показан на фиг.6h.

Следует отметить, что среднее указанного модуляционного спектрального представления звуковой дорожки таково, что оно способно указывать темпы на множестве метрических уровней. Кроме того, спектр модуляции способен указывать относительную физическую выраженность для множества метрических уровней в формате, который совместим с экспериментами по отбиванию темпа, используемыми для определения воспринимаемого темпа. Иными словами, данное представление хорошо согласуется с экспериментальным представлением 102, 103 «по отбиванию темпа» по фиг.1, и поэтому оно может являться основной для принятия перцептивно мотивированных решений для оценки темпа звуковой дорожки.

Как уже было упомянуто выше, частоты, соответствующие пиковым значениям обработанного компандированного энергетического спектра Mel обеспечивают указание темпа анализируемого звукового сигнала. Кроме того, следует отметить, что модуляционно-спектральное представление может использоваться для сравнения ритмического подобия между музыкальными произведениями. Также модуляционно-спектральное представление для отдельных сегментов, или блоков, может использоваться для сравнения сходства между музыкальными произведениями с целью создания эскизов аудиоданных или для применений, связанных с сегментацией.

В целом, описан способ получения информации о темпе из звуковых сигналов в области преобразования, например, в области преобразования НЕ-ААС и в области РСМ. Однако может потребоваться извлечение информации о темпе звукового сигнала непосредственно из сжатой области. Ниже описывается способ определения оценки темпа на звуковых сигналах, которые представлены в сжатой области, или в области битового потока. Особенное внимание уделяется звуковым сигналам, кодированным в НЕ-ААС.

Кодирование НЕ-ААС использует технологии высокочастотной реконструкции (HFR) или репликации спектральной полосы (SBR). Процесс SBR-кодирования включает этап обнаружения кратковременных сигналов, этап адаптивного выбора сетки T/F (время/частота) для надлежащего представления, этап оценки огибающей и дополнительные способы, предназначенные для коррекции несоответствия характеристик между низкочастотной и высокочастотной частями сигнала.

Как наблюдалось, большая часть полезной нагрузки, генерируемой кодером SBR, возникает в результате параметрического представления огибающей. В зависимости от характеристик сигнала кодер определяет частотно-временное разрешение, пригодное для надлежащего представления сегмента звукового сигнала и позволяющее избежать артефакты опережающего эха. Как правило, более высокая разрешающая способность по частоте выбирается для квазистационарных сегментов во времени, тогда как для динамических переходов выбирается более высокая разрешающая способность по времени.

Соответственно, выбор частотно-временного разрешения оказывает значительное влияние на битовую скорость передачи данных SBR по той причине, что более продолжительные по времени сегменты могут кодироваться более эффективно чем менее продолжительные по времени сегменты. В то же время, для быстро меняющегося информационного наполнения, т.е., как правило, для звукового информационного наполнения, имеющего более высокий темп, количество огибающих и, следовательно, количество коэффициентов огибающих, которые необходимо передать для надлежащего представления звукового сигнала, больше, чем для медленно меняющегося информационного наполнения. Помимо влияния выбранной разрешающей способности по времени, этот эффект также оказывает влияние на количество данных SBR. Фактически наблюдалось, что чувствительность скорости передачи данных SBR к изменениям темпа основного звукового сигнала выше, чем чувствительность величины длины кода Хаффмана, используемого в контексте кодеков mp3. Поэтому изменения битовой скорости передачи данных SBR идентифицируются как ценная информация, которая может использоваться для определения ритмических составляющих непосредственно из кодированного битового потока.

На фиг.7 показан пример блока 701 необработанных данных ААС, который включает поле 702 fill_element. Поле 702 fill_element в битовом потоке используется для хранения дополнительной параметрической информации, такой как данные SBR. При использовании в дополнение к SBR параметрического стереофонического кодирования (PS) (т.е. в HE-AAC v2) поле 702 filljelement также содержит дополнительную информацию PS. Нижеследующие разъяснения основаны на монофоническом случае. Однако следует учитывать, что описываемый способ также применим и для битовых потоков, передающих любое количество каналов, например, для стереофонического случая.

Размер поля 702 filljelement изменяется в зависимости от передаваемого количества параметрической дополнительной информации. Следовательно, размер поля 702 filljelement может использоваться для извлечения информации о темпе непосредственно из сжатого потока HE-AAC. Как показано на фиг.7, поле 702 filljzlement включает заголовок 703 SBR и данные 704 полезной нагрузки SBR.

Заголовок 703 SBR является постоянной величиной для отдельного аудиофайла и многократно повторяется как часть поля 702 filljelement. Повторная передача заголовка 703 SBR приводит к повторяющемуся пику в данных полезной нагрузки на определенной частоте, что, соответственно, приводит к пику в области частот модуляции при 1/х Гц с определенной амплитудой (х - скорость повторения при передаче заголовка 703 SBR). Однако многократно передаваемый заголовок 703 SBR не содержит какой-либо ритмической информации, и поэтому должен быть удален.

Это может осуществляться путем определения длины и временного интервала появления заголовка 703 SBR непосредственно после синтаксического анализа битового потока. По причине периодичности заголовка 703 SBR этап определения, как правило, должен осуществляться один раз. Если доступна информация о длине и появлении, данные 705 SBR в полном объеме могут быть легко скорректированы путем вычитания длины заголовка 703 SBR из данных 705 SBR в момент появления заголовка 703 SBR, т.е. в момент передачи заголовка 703 SBR. Это дает величину полезной нагрузки 704 SBR, которая может быть использована для определения темпа. Следует отметить, что для определения темпа сходным образом может использоваться размер поля 702 fill_element, скорректированный путем вычитания длины заголовка 703 SBR, поскольку он отличается от полезной нагрузки 704 SBR только на постоянную величину служебных данных.

Пример размера пакета данных 704 полезной нагрузки SBR, или размера скорректированного поля 702fill_element, приведен на фиг.8а. Ось х показывает номер кадра, а ось у указывает объем данных 704 полезной нагрузки SBR, или размер скорректированного поля 702 fill_element, для соответствующего кадра. Как видно, объем данных 704 полезной нагрузки SBR изменяется от кадра к кадру. Ниже отсылка будет делаться только к объему данных 704 полезной нагрузки SBR. Информация о темпе может быть извлечена из последовательности 801 объемов данных 704 полезной нагрузки SBR путем обнаружения периодичностей в объемах данных 704 полезной нагрузки SBR. В частности, могут идентифицироваться периодичности пиков или повторяющиеся паттерны в объеме данных 704 полезной нагрузки SBR. Это можно осуществить, например, применяя FFT к перекрывающимся подпоследовательностям объема данных 704 полезной нагрузки SBR. Подпоследовательности могут соответствовать определенной продолжительности сигнала, например, 6 секундам. Перекрывание последовательных подпоследовательностей может представлять собой 50% перекрывание. Соответственно, коэффициенты FFT для подпоследовательностей могут усредняться по продолжительности всей звуковой дорожки. Это приводит к усредненным коэффициентам FFT для всей звуковой дорожки, которые могут быть представлены в виде спектра модуляции 811, показанного на фиг.8b. Следует отметить, что для идентификации периодичностей в объеме данных 704 полезной нагрузки SBR могут предусматриваться и другие способы.

Пики 812, 813, 814 в спектре модуляции 811 указывают на повторяющиеся, т.е. ритмические, паттерны с определенной частотой появления. Частота появления также может называться частотой модуляции. Следует отметить, что максимально возможная частота модуляции ограничена разрешающей способностью по времени основного базового аудиокодека. Поскольку НЕ-ААС определяется как система с удвоенной частотой дискретизации, где базовый кодек ААС функционирует на половине частоты дискретизации, максимально возможная частота модуляции для последовательности продолжительностью 6 секунд (128 кадров) с частотой дискретизации Fs=44100 Гц составляет, около, 21,74 Гц/2 ~ 11 Гц. Указанная максимально возможная частота модуляции соответствует, приблизительно, 660 ВРМ, что охватывает темп почти любого музыкального фрагмента. Для удобства, при условии дальнейшего обеспечения надлежащей обработки, максимальная частота модуляции может быть ограничена 10 Гц, что соответствует 600 ВРМ.

Спектр модуляции по фиг.8b может быть дополнительно улучшен способом, аналогичным способу, который описан в контексте спектра модуляции, определяемого из представления звукового сигнала в области преобразования или области РСМ. Например, с целью моделирования человеческих предпочтений темпа к спектру 811 данных полезной нагрузки SBR может применяться перцептивное взвешивание с использованием взвешивающей кривой 500, показанной на фиг.5. Результирующий перцептивно взвешенный спектр 821 модуляции данных полезной нагрузки SBR показан на фиг.8 с.Как видно, очень высокие и очень низкие темпы подавляются. В частности, можно видеть, что низкочастотный пик 822 и высокочастотный пик 824 уменьшены по сравнению с исходными пиками 812 и 814 соответственно. С другой стороны среднечастотный пик 823 сохраняется.

Определяя максимальное значение в спектре модуляции и соответствующую ему частоту модуляции из спектра модуляции данных полезной нагрузки SBR, можно получить физически наиболее выраженный темп. В случае, иллюстрируемом фиг.8 с, результат составляет 178,659 ВРМ. Однако в настоящем примере указанный физически наиболее выраженный темп не соответствует перцептивно наиболее выраженному темпу, который соответствует, около, 89 ВРМ. Следовательно, имеется двойная неопределенность, т.е. неопределенность метрического уровня, которая нуждается в коррекции. С этой целью ниже описана схема перцептивной коррекции темпа.

Следует отметить, что предлагаемый подход к оценке темпа, основывающийся на данных полезной нагрузки SBR, не зависит от битовой скорости передачи данных входного музыкального сигнала. При изменении битовой скорости передачи данных кодированного битового потока НЕ-ААС, кодер автоматически устанавливает начальную и конечную частоту SBR в соответствии с максимальным выходным качеством, достижимым при данной конкретной битовой скорости передачи данных, т.е. изменяет частоту перехода SBR. Тем не менее, полезная нагрузка SBR по-прежнему включает информацию, которая относится к повторяющимся кратковременным составляющим на звуковой дорожке. Это можно видеть на фиг.8d, где показаны спектры модуляции полезной нагрузки SBR для различных битовых скоростей передачи данных (от 16 кбит/с до 64 кбит/с). Как видно, повторяющиеся фрагменты (т.е. такие пики в спектре модуляции, как пик 833) звукового сигнала остаются преобладающими для всех битовых скоростей передачи данных. Также можно видеть, что в различных спектрах модуляции присутствуют флуктуации, поскольку при уменьшении битовой скорости передачи данных кодер пытается экономить биты в SBR-части.

Для того, чтобы суммировать вышесказанное, обратимся к фиг.9. Рассматривается три различных представления звукового сигнала. В сжатой области звуковой сигнал представлен его кодированным битовым потоком, например, битовым потоком 901 НЕ-ААС. В области преобразования звуковой сигнал представлен его коэффициентами преобразования, или коэффициентами поддиапазонов, например, коэффициентами 902 MDCT. В области РСМ звуковой сигнал представлен его дискретными значениями 903 РСМ. В приведенном выше описании описаны способы определения спектра модуляции в любой из этих трех областей сигнала. Описан способ определения спектра 911 модуляции на основе полезной нагрузки SBR битового потока НЕ-ААС 901. Также описан способ определения спектра 912 модуляции на основе представления 902 преобразования, например, на основе коэффициентов MDCT, звукового сигнала. Кроме того, описан способ определения спектра 913 модуляции на основе РСМ-представления 903 звукового сигнала.

Любой из оцененных спектров 911,912, 913 модуляции может быть использован в качестве основы для оценки физического темпа. Для этого могут выполняться различные этапы усовершенствованной обработки, например, перцептивное взвешивание с использованием взвешивающей кривой 500, перцептивное размывание границ и/или вычисление абсолютной разности. В конечном итоге определяются максимумы в спектрах 911, 912, 913 модуляции и соответствующие им частоты модуляции. Абсолютный максимум в спектре 911, 912, 913 модуляции является оценкой физически наиболее выраженного темпа анализируемого звукового сигнала. Другие максимумы, как правило, соответствуют другим метрическим уровням данного физически наиболее выраженного темпа.

На фиг.10 представлено сравнение спектров 911, 912, 913 модуляции, полученных с использованием описанных выше способов. Как видно, частоты, соответствующие абсолютным максимумам соответствующих спектров модуляции, очень похожи. Слева анализируется отрывок звуковой дорожки джазовой музыки. Спектры 911, 912, 913 модуляции определены, соответственно, из представления НЕ-ААС, представления MDCT и представления РСМ звукового сигнала. Как видно, все три спектра модуляции обеспечивают сходные частоты 1001, 1002, 1003 модуляции, соответствующие пику максимума в спектрах 911, 912, 913 модуляции соответственно. Похожие результаты получаются для отрывка классической музыки (посередине) с частотами 1011, 1012, 1013 модуляции и для отрывка металлической хард-роковой музыки (справа) с частотами 1021, 1022, 1023 модуляции.

Таким образом, описаны способы и соответствующие системы, которые позволяют оценивать физически выраженные темпы посредством спектров модуляции, полученных из различных форм представления сигнала. Эти способы применимы к различным типам музыки и не ограничиваются только лишь западной популярной музыкой. Также к различным формам представления сигнала применимы различные способы, которые могут выполняться с низкой вычислительной сложностью для каждого соответствующего представления сигнала.

Как видно на фиг.6, 8 и 10, спектр модуляции, как правило, содержит ряд пиков, которые обычно соответствуют различным метрическим уровням темпа звукового сигнала. Это видно, например, на фиг.8b, где три пика 812, 813, 814 имеют сходную интенсивность и поэтому могут являться кандидатами для оценки основного темпа звукового сигнала. Выбор пика 813 максимума предусматривает физически наиболее выраженный темп. Как описывалось выше, указанный физически наиболее выраженный темп может не соответствовать перцептивно наиболее выраженному темпу. Для того, чтобы оценивать этот перцептивно наиболее выраженный темп автоматически, ниже описана схема перцептивной коррекции темпа.

В одном из вариантов осуществления изобретения схема перцептивной коррекции темпа включает определение физически наиболее выраженного темпа из спектра модуляции. В случае спектра модуляции по фиг.8b может быть определен пик 813 и соответствующая частота модуляции. Кроме того, из спектра модуляции могут быть извлечены дополнительные параметры, способствующие коррекции спектра. Первым параметром может являться параметр MMSCentroid (спектр модуляции Mel), который представляет собой центроид спектра модуляции в соответствии с уравнением 1. Центроидный параметр MMSCentroid может использоваться в качестве указателя скорости звукового сигнала.

M M S C e n t r o i d = d = 1 D d n = 1 N M M S ¯ ( n , d ) d = 1 D n = 1 N M M S ¯ ( n , d )              ( 1 )

В приведенном выше уравнении D - это количество элементов разрешения по частоте модуляции, a d=1, …, D определяет соответствующий элемент разрешения по частоте модуляции. N - общее количество элементов разрешения по частоте вдоль оси частот Mel, а n=1, …, N определяет соответствующий элемент разрешения по частоте на оси частот Mel. MMS(n,d) указывает спектр модуляции для конкретного сегмента звукового сигнала, тогда как M M S ¯ ( n , d ) указывает суммированный спектр модуляции, который характеризует звуковой сигнал в целом.

Вторым параметром, помогающим выполнять коррекцию, является MMSBEATSTRENGTH, который представляет собой максимальное значение в спектре модуляции в соответствии с уравнением 2. Как правило, его значение является высоким для электронной музыки и небольшим - для классической музыки.

M M S B E A T S T R E N G T H = m a x d ( n = 1 N M M S ¯ ( n , d ) )               ( 2 )

Следующим параметром является MMSCONFUSION', который представляет собой среднее значение спектра модуляции после нормирования на 1 в соответствии с формулой 3. Если последний указанный параметр имеет низкое значение, то это указывает на резко выраженные пики в спектре модуляции (например, как на фиг.6). Если этот параметр имеет высокое значение, то спектр является распределенным, не содержит выраженных пиков, и в нем присутствует высокая степень неопределенности.

M M S C O N F U S I O N = 1 N D n = 1 N d = 1 D ( M M S ¯ ( n , d ) m a x ( n , d ) ( M M S ¯ ( n , d ) ) ) ( 3 )

Помимо этих параметров, т.е. центроида спектра модуляции MMSCentoid, интенсивности ударов модуляции MMSBEATSTRENGTH и неопределенности темпа модуляции MMSCONFUSION, могут быть выведены и другие значимые параметры восприятия, которые могут использоваться для приложений MIR.

Следует отметить, что уравнения в данном документе сформулированы для частот в спектрах модуляции Mel, т.е в спектрах 912, 913, определенных на основе звуковых сигналов, представленных в области РСМ и области преобразования. В случае, когда спектр 911 модуляции определяется из MMS(n,d) звуковых сигналов, представленных в сжатой области, члены и n = 1 N M M S ( n , d ) в уравнениях данного документа необходимо заменять членом MSSBR(d) (спектр модуляции на основе данных полезной нагрузки SBR).

На основе выбора описанных выше параметров может предусматриваться схема перцептивной коррекции темпа. Указанная схема перцептивной коррекции темпа может использоваться для определения перцептивно наиболее выраженного темпа, который воспринимали бы люди, из физически наиболее выраженного темпа, полученного из модуляционного представления. Способ использует перцептивно мотивированные параметры, полученные из спектра модуляции, а именно: критерий скорости музыки, даваемый центроидом спектра модуляции MMSCentroid, интенсивность ударов, даваемая максимальным значением в спектре модуляции MMSBEATSTRENGTH, и коэффициент неопределенности модуляции MMSCONFUSION, даваемый средним значением модуляционного представления после нормирования. Способ может включать любой из следующих этапов, на которых:

1. Определяют основной размер музыкальной дорожки, например размер 4/4 или ¾.

2. Осуществляют свертывание темпа до представляющего интерес диапазона в соответствии с параметром MMSBEATSTRENGTH.

3. Осуществляют коррекцию темпа в соответствии с критерием воспринимаемой скорости MMSCmtroid.

Необязательно, определение коэффициента неопределенности модуляции MMSCONFUSION может предоставлять критерий надежности оценки воспринимаемого темпа.

На первом этапе, для того, чтобы определить возможные факторы, посредством которых следует корректировать физически измеряемые темпы, может определяться основной размер музыкальной дорожки. Например, пики в спектре модуляции музыкальной дорожки с тактом ¾ появляются в три раза чаще частоты основного ритма. Поэтому коррекция темпа должна задаваться на основе числа три. В случае звуковой дорожки с тактом 4/4, коррекция темпа должна задаваться на основе числа 2. Это показано на фиг.11, где показаны спектры модуляции полезной нагрузки SBR джазовой музыкальной дорожки с тактом ¾ (фиг.11а) и металлической музыкальной дорожки с тактом 4/4 (фиг.11b). Метрика темпа может определяться из распределения пиков в спектре модуляции полезной нагрузки SBR. В случае такта 4/4 значимые пики являются двукратными друг по отношению к другу, тогда как для такта % значимые пики являются трехкратными.

Для ослабления этого потенциального источника ошибок оценки темпа может применяться способ взаимной корреляции. В одном из вариантов осуществления изобретения для различных запаздываний по частоте Δd может определяться автокорреляция спектра модуляции. Автокорреляция может иметь вид:

C o r r ( Δ d ) = 1 D N d = 1 D n = 1 N M M S ¯ ( n , d ) M M S ¯ ( n , d + Δ d ) . ( 4 )

Запаздывания по частоте Δd, которые приводят к максимальной корреляции Corr(Δd), обеспечивают указание основного размера. Точнее, если dmax - физически наиболее выраженная частота модуляции, то выражение ( d m a x + Δ d ) d m a x обеспечивает указание основного размера.

В одном из вариантов осуществления изобретения для определения основного размера может использоваться взаимная корреляция между синтезированными, перцептивно модифицированными кратными физически наиболее выраженного темпа в пределах усредненного спектра модуляции. Наборы кратных для двойной (уравнение 5) и тройной (уравнение 6) неопределенности вычисляются следующим образом:

M u l t i p l e s d o u b l e = d m a x { 1 4 , 1 2 , 1 , 2 , 4 } , ( 5 )

M u l t i p l e s t r i p l e = d m a x { 1 6 , 1 3 , 1 , 3 , 6 } . ( 6 )

На следующем этапе выполняется синтез функций отбивания темпа для различных размеров, где функции отбивания темпа имеют длину, равную длине представления спектра модуляции, т.е. они имеют длину, равную длине оси частоты модуляции (уравнение 7):

S y n t h T a b d o u b l e , t r i p l e ( d ) = { 1 i f d M u l t i p l e s d o u b l e , t r i p l e 0 o t h e r w i s e , 1 d D . ( 7 )

Синтезированные функции отбивания темпа S y n t h T a b d o u b l e , t r i p l e ( d ) представляют модель человека, отбивающего различные метрические уровни основного темпа. Т.е., при условии такта ¾, темп может отбиваться на 1/6 его такта, на 1/3 его такта, на его такте, на утроенном такте, и на шестикратном такте. Сходным образом, при условии такта 4/4, темп может отбиваться на 1/4 его такта, на 1/2 его такта, на его такте, на удвоенном такте, и на его четырехкратном такте.

Если рассматриваются перцептивно модифицированные версии спектра модуляции, может возникнуть необходимость также и в модификации синтезированных функций отбивания темпа с целью создания общего представления. Если в схеме перцептивного извлечения темпа отбрасывается перцептивное размывание границ, этот этап может быть пропущен. В противном случае, синтезированные функции отбивания темпа должны подвергаться перцептивному размыванию границ, описываемому уравнением 8, для того, чтобы адаптировать синтезированные функции отбивания темпа к гистограммам отбивания темпа людьми.

S y n t h T a b d o u b l e , t r i p l e ( d ) = S y n t h T a b d o u b l e , t r i p l e ( d ) * B , 1 d D ,

где В - это ядро оператора размывания границ, и * - это операция свертывания. Ядро оператора размывания границ представляет собой вектор фиксированной длины, который имеет форму пика гистограммы отбивания темпа, например, форму треугольника или узкого колоколообразного импульса. Форма ядра В оператора размывания границ, предпочтительно, отражает форму пиков гистограмм отбивания темпа, т.е. гистограмм 102, 103 по фиг.1. Ширина ядра оператора размывания границ, т.е. количество коэффициентов для ядра В, а значит и интервал частот модуляции, охватываемый ядром В, как правило, одинаков по всему диапазону D частот модуляции. В одном из вариантов осуществления изобретения ядро В оператора размывания границ представляет собой узкий колоколообразный импульс с максимальной амплитудой, равной единице. Ядро В оператора размывания границ может охватывать интервал частот модуляции величиной 0,265 Гц (~16 ВРМ), т.е. он может иметь ширину +/- 8 ВРМ относительно центра импульса.

Поле того, как выполнена перцептивная модификация синтезированных функций отбивания темпа (если она требуется), вычисляется взаимная корреляция с нулевым запаздыванием между функциями отбивания темпа и исходным спектром модуляции. Она показана в уравнении 9:

C o r r d o u b l e , t r i p l e = d = 1 D ( n = 1 N M M S ¯ ( n , d ) ) S y n t h T a b d o u b l e , t r i p l e ( d ) . ( 9 )

В конечном итоге путем сравнения результатов корреляции, полученных из синтезированной функции отбивания темпа для «удвоенного» размера и синтезированной функции отбивания темпа для «утроенного» размера, определяется поправочный коэффициент. Поправочному коэффициенту присваивается значение 2, если его корреляция, полученная для функции отбивания темпа для двойной неопределенности, больше или равна корреляции, полученной для функции отбивания темпа для тройной неопределенности, и наоборот (уравнение 10):

C o r r e c t i o n = { 2 i f C o r r d o u b l e > = C o r r t r i p l e 3 e l s e . ( 1 0 )

Следует отметить, что в общем смысле поправочный коэффициент определяется с использованием способов корреляции на спектре модуляции. Поправочный коэффициент связан с основным размером музыкального сигнала, т.е. с тактами 4/4, ¾ и др. Размер основного такта может быть определен путем применения способов корреляции к спектрам модуляции музыкального сигнала, некоторые из которых описаны выше.

Используя поправочный коэффициент, можно выполнить текущую перцептивную коррекцию темпа. В одном из вариантов осуществления изобретения она осуществляется поэтапно. Псевдокод для этого иллюстративного варианта осуществления изобретения приведен в таблице 2.

На первом этапе физически наиболее выраженный темп, обозначаемый в таблице 2 как «Tempo» отображается в представляющий интерес диапазон путем использования параметра MMSBEATSTRENGTH и вичисленного ранее поправочного коэффициента. Если значение параметра MMSBEATSTRENGTH находится ниже определенного порогового значения (которое зависит от области сигнала, аудиокодека, битовой скорости передачи данных и частоты дискретизации), и если физически определенный темп, т.е параметр «Tempo» имеет относительно высокое значение или относительно низкое значение, физически наиболее выраженный темп корректируется посредством определенного поправочного коэффициента, или размера такта.

На втором этапе темп дополнительно корректируется в соответствии со скоростью музыки, т.е. в соответствии с центроидом модуляции MMSCentroid. Индивидуальные пороговые значения для коррекции могут определяться из перцептивных экспериментов, в которых пользователей просят классифицировать музыкальное информационное наполнение по различным жанрам и темпам, например, по четырем категориям: Медленное, Почти Медленное, Почти Быстрое и Быстрое. Кроме того для тех же пунктов аудиотеста вычисляются центроиды MMSCentroid спектров модуляции и отображаются относительно субъективного распределения по категориям. Результаты иллюстративной классификации показаны на фиг.12. Ось х показывает четыре субъективные категории: Медленно, Почти медленно. Почти быстро и Быстро. Ось у показывает вычисленные значения тяготения, т.е. центроиды спектра модуляции. Проиллюстрированы экспериментальные результаты, использующие спектры 911 модуляции в сжатой области (фиг.12а), использующие спектры 912 модуляции в области преобразования (фиг.12b) и использующие спектры 913 модуляции в области рем (фиг.12с). Для каждой из категорий показано среднее 1201, доверительный интервал 50% 1202, 1203 и верхний и нижний пределы 1204, 1205 классификаций. Высокая степень наложения категорий подразумевает высокий уровень неопределенности в отношении классификации темпа субъективным образом. Тем не менее, из этих экспериментальных результатов можно извлечь пороговые значения для параметра MMSCentroid, которые позволяют присваивать музыкальной дорожке субъективные категории Медленно, Почти медленно. Почти быстро и Быстро. Иллюстративные пороговые значения параметра MMSCentroid Для различных представлений сигнала (область РСМ, область преобразования НЕ-ААС, сжатая область с полезной нагрузкой SBR) представлены в таблице 3.

Таблица 3
Субъективный размер MMSCentroid (РСМ) MMSCentroid (НЕ-ААС) MMSCentroid (SBR)
МЕДЛЕННЫЙ (S) <23 <26 30,5
ПОЧТИ МЕДЛЕННЫЙ (AS) 23-24,5 26-27 30,5-30,9
ПОЧТИ БЫСТРЫЙ (AF) 24,5-26 27-28 30,9-32
БЫСТРЫЙ (F) >26 >28 >32

Указанные пороговые значения для параметра MMSCentroid используются на втором этапе коррекции темпа, описанном в таблице 2. В ходе второго этапа коррекции темпа идентифицируются и, в конечном итоге, корректируются большие расхождения между оценкой темпа и параметром MMSCentroid. Например, если оцененный темп относительно высок, и если параметр MMSCentroid указывает, что воспринимаемая скорость должна быть относительно низкой, оцененный темп снижается посредством поправочного коэффициента. Аналогичным образом, если оцененный темп является относительно низким, в то время как параметр MMSCentroid указывает, что воспринимаемая скорость должна быть относительно высокой, оцененный темп увеличивается посредством поправочного коэффициента.

Другой вариант осуществления схемы перцептивной коррекции темпа описан в таблице 4. Показан псевдокод для поправочного коэффициента 2, однако этот пример в равной степени применим и для других поправочных коэффициентов. В схеме перцептивной коррекции темпа согласно таблице 4 на первом этапе проверяется, превышает ли неопределенность, т.е. MMSCONFUSION определенное пороговое значение. Если нет, то предполагается, что физически выраженный темп t1 соответствует перцептивно выраженному темпу. Однако если уровень неопределенности превышает пороговое значение, то физически выраженный темп t1 корректируется с учетом информации о воспринимаемой скорости музыкального сигнала, которая извлекается из параметра MMSCentroid.

Следует отметить, что для классификации музыкальных дорожек также могут использоваться и альтернативные схемы. Например, можно сконструировать классификатор, предназначенный для классификации скорости, а затем - для выполнения перцептивных коррекций. В одном из вариантов осуществления изобретения для автоматической классификации неопределенности, скорости и интенсивности ударов неизвестных музыкальных сигналов могут быть подготовлены и смоделированы параметры, используемые для коррекции темпа, т.е., в особенности MMSCONFUSION, MMSCentroid и MMSBEATSTRENGTH. Для сходных перцептивных коррекций, как описано выше, могут использоваться классификаторы. Таким образом, может облегчаться использование фиксированных пороговых значений, как это представлено в таблицах 3 и 4, и система может быть сделана более гибкой.

Как уже было упомянуто выше, предложенный параметр MMSCONFUSION обеспечивает указание надежности оцениваемого темпа. Этот параметр также может быть использован как функциональная возможность для MIR (поиска музыкальной информации) при классификации настроения и жанра.

Следует отметить, что приведенная выше схема перцептивной коррекции темпа может применяться поверх различных способов оценки физического темпа. Это иллюстрируется фиг.9, где показано, что схема перцептивной коррекции темпа может применяться к различным оценкам физического темпа, полученным из сжатой области (ссылочная позиция 921), может применяться к оценкам физического темпа, полученным из области преобразования (ссылочная позиция 922) и может применяться к оценкам физического темпа, полученным из области РСМ (ссылочная позиция 923).

На фиг.13 показан пример блок-схемы системы 1300 оценки темпа. Следует отметить, что в зависимости от требований различные компоненты указанной схемы 1300 оценки темпа могут использоваться по отдельности. Система 1300 включает блок 1310 системного управления, синтаксический анализатор 1301 области, этап предварительной обработки 1302, 1303, 1304, 1305, 1306 1307, предназначенный для получения унифицированного представления сигнала, алгоритм 1311 определения выраженных темпов и блок 1308, 1309 постобработки, предназначенный для перцептивной коррекции извлекаемых темпов.

Поток сигналов может быть следующим. Вначале входной сигнал в любой области подается в синтаксический анализатор 1301 области, который извлекает всю необходимую информацию, например, о частоте дискретизации и номере канала, для определения темпа и его коррекции из входного аудиофайла. Эти значения затем хранятся в памяти блока 1310 системного управления, который задает путь вычислений в соответствии с областью входного сигнала.

Извлечение и предварительная обработка входных данных выполняется на следующем этапе. В случае, когда входной сигнал представлен в сжатой области, указанная предварительная обработка 1302 включает извлечение полезной нагрузки SBR, извлечение информации заголовка SBR и схему коррекции ошибок информации заголовка. В области преобразования предварительная обработка 1303 включает извлечение коэффициентов MDCT, чередование коротких блоков и энергетическое преобразование последовательности блоков коэффициентов MDCT. В несжатой области предварительная обработка 1304 включает вычисление энергетической спектрограммы для дискретных значений РСМ. Затем преобразованные данные сегментируются в К блоков наполовину перекрывающихся 6-секундных порций данных с целью захвата долговременных характеристик входного сигнала (блок 1305 сегментирования). Для этого может использоваться управляющая информация, хранящаяся в памяти блока 1310 системного управления. Количество блоков К, как правило, зависит от продолжительности входного сигнала. В одном из вариантов осуществления изобретения блок, например, конечный блок звуковой дорожки, заполняется нулями, если он короче 6 секунд.

Сегменты, которые включают предварительно обработанные данные MDCT или РСМ, претерпевают преобразование в шкалу Mel и/или этап обработки уменьшения размерности с использованием компандирующей функции (блок 1306 обработки в шкале Mel). Сегменты, включающие данные полезной нагрузки SBR, подаются непосредственно в следующий блок 1307 обработки, блок определения спектра модуляции, где вдоль оси времени вычисляется FFT по N точкам. Этот этап приводит к требуемому спектру модуляции. Количество N элементов разрешения по частоте модуляции зависит от разрешающей способности по времени базовой области, и оно может подаваться в алгоритм блоком 1310 системного управления. В одном из вариантов осуществления изобретения спектр ограничивается частотой 10 Гц для того, чтобы он оставался в пределах интервалов, воспринимаемых органами чувств, и спектр перцептивно взвешивается в соответствии с кривой 500 человеческих предпочтений темпа.

Для того, чтобы усилить пики модуляции в спектрах, основывающихся на несжатой области и области преобразования, на следующем этапе (в блоке 1307 определения спектра модуляции) может вычисляться абсолютная разность по оси частот модуляции с последующим перцептивным размыванием границ по оси частот в шкале Mel и по оси частот модуляции для того, чтобы адаптировать форму гистограмм отбивания темпа. Этот этап вычислений является необязательным для несжатой области и области преобразования, поскольку новые данные на этом этапе не генерируются, но он, как правило, приводит к улучшенному визуальному представлению спектров модуляции.

В конечном итоге, сегменты, обработанные в блоке 1307, могут объединяться посредством операции усреднения. Как уже отмечалось выше, усреднение может включать вычисление среднего значения или определение срединного значения. Это приводит к конечному представлению перцептивно мотивированного спектра модуляции в шкале Mel (MMS) из несжатых данных РСМ или данных MDCT в области преобразования, или это приводит к конечному представлению перцептивно мотивированного спектра модуляции полезной нагрузки SBR (MSSBR) для составляющих битового потока в сжатой области.

Из спектров модуляции могут вычислены такие параметры, как центроид спектра модуляции, интенсивность ударов в спектре модуляции и неопределенность темпа в спектре модуляции. Любой из этих параметров может подаваться в блок 1309 перцептивной коррекции темпа и использоваться этим блоком для выполнения коррекции физически наиболее выраженных темпов, полученных из вычисления 1311 максимумов. Выходным сигналом системы 1300 является перцептивно наиболее выраженный темп текущего входного музыкального файла.

Следует отметить, что способы, описанные в настоящем документе для оценки темпа, могут применяться в аудиодекодере, а также в аудиокодере. Способы оценки темпа из звуковых сигналов в сжатой области, области преобразования и области РСМ могут применяться при декодировании кодированного файла. Указанные способы в равной степени применимы при кодировании звукового сигнала. Понятие масштабируемой сложности описанных способов имеет силу как при декодировании, так и при кодировании звукового сигнала.

Также следует отметить, что, несмотря на то, что способы, описанные в настоящем документе, описаны в контексте оценки и коррекции темпа на звуковых сигналах в целом, эти способы также могут применяться к подсекциям, например, к сегментам ММС, звукового сигнала, и, таким образом, предоставлять информацию о темпе для подсекций звукового сигнала.

В качестве следующей особенности, следует отметить, что информация физического темпа и/или информация воспринимаемого темпа звукового сигнала может записываться в кодированный битовый поток в форме метаданных. Эти метаданные могут извлекаться и использоваться проигрывателем мультимедийных данных или приложением MIR.

Кроме того, предполагается модификация и сжатие спектральных представлений модуляции (например, спектров 1001 модуляции и, в частности, 1002 и 1003 по фиг.10) и хранение в памяти, возможно, модифицированных и/или сжатых спектров модуляции в качестве метаданных в аудио/видеофайле или битовом потоке. Эта информация может использоваться в качестве эскизов акустического изображения звукового сигнала. Это может оказаться полезным для предоставления пользователю подробностей, относящихся к ритмическому информационному наполнению звукового сигнала.

В настоящем документе описан частотно-модулированный способ и система с масштабируемой сложностью для надежной оценки физического и воспринимаемого темпа. Оценка может выполняться на звуковых сигналах в несжатой области РСМ, области преобразования НЕ-ААС на основе MDCT и в сжатой области на основе полезной нагрузки SBR НЕ-ААС. Это позволяет определять оценки темпа с чрезвычайно низкой сложностью даже тогда, когда звуковой сигнал находится в сжатой области. С использованием данных полезной нагрузки SBR оценки темпа могут быть извлечены непосредственно из сжатого битового потока НЕ-ААС без выполнения декодирования энтропии. Предлагаемый способ устойчив при изменениях битовой скорости передачи данных и частоты перехода SBR и может применяться к монофоническим и многоканальным кодированным звуковым сигналам. Также он может применяться для других SBR расширенных аудиокодеров, таких как mp3PRO, и может рассматриваться как инвариантный к типу кодека. Для оценки темпа не требуется, чтобы устройство, выполняющее указанную оценку темпа, было способно декодировать данные SBR. Это связано с тем, что извлечение темпа выполняется непосредственно на кодированных данных SBR.

Кроме того, предлагаемые способы и система используют знания о человеческом восприятии темпа и о распределениях музыкальных темпов в больших наборах музыкальных данных. Помимо оценки надлежащего представления звукового сигнала для оценки темпа, описана перцептивная весовая функция темпа, а также схема перцептивной коррекции темпа. Кроме того, описана схема перцептивной коррекции темпа, которая обеспечивает надежные оценки перцептивно выраженного темпа звуковых сигналов.

Предлагаемые способы и системы могут быть использованы в контексте приложений MIR, например, для классификации жанров. По причине низкой вычислительной сложности схемы оценки темпа способ оценки темпа на основе полезной нагрузки SBR,, в частности, может быть непосредственно реализован на переносных электронных устройствах, которые, как правило, обладают ограниченными ресурсами обработки и памяти.

Кроме того, определение перцептивно выраженных темпов может использоваться для выбора музыки, сравнения, микширования и составления списков воспроизведения. Например, при генерировании списка воспроизведения с гладкими ритмическими переходами между смежными музыкальными дорожками информация, относящаяся к перцептивно выраженному темпу музыкальных дорожек, может оказаться более соответственной, чем информация, относящаяся к физически выраженному темпу.

Способы и системы оценки темпа, описанные в настоящем документе, могут быть реализованы как программное обеспечение, встроенное программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут, например, быть реализованы как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или микропроцессоре. Другие компоненты могут, например, реализовываться как аппаратное обеспечение или как интегральные микросхемы специального назначения. Сигналы, встречающиеся в описанных способах и системах могут храниться в памяти, например, в оперативной памяти или на оптическом носителе данных. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например, через Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или воспроизведения звуковых сигналов. Способы и система также могут использоваться в компьютерных системах, например, веб-серверах Интернет, которые хранят и предоставляют для загрузки звуковые сигналы, например, музыкальные сигналы.

1. Способ извлечения информации о темпе звукового сигнала из сжатого кодированного битового потока репликации спектральной полосы звукового сигнала, где кодированный битовый поток включает данные репликации спектральной полосы, где способ включает этапы, на которых:
- определяют величину полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток для некоторого временного интервала звукового сигнала;
- повторяют этап определения для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, определение последовательности величин полезной нагрузки;
- идентифицируют периодичность в последовательности величин полезной нагрузки; и
извлекают информацию о темпе звукового сигнала из идентифицированной периодичности.

2. Способ по п.1, отличающийся тем, что определение величины полезной нагрузки включает этапы, на которых:
- определяют количество данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале; и
- определяют величину полезной нагрузки на основе количества данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале.

3. Способ по п.2, отличающийся тем, что определение величины полезной нагрузки включает этапы, на которых:
- определяют количество данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале;
- определяют сумму нетто данных, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале, путем вычитания количества данных заголовка репликации спектральной полосы, заключенных в одном или нескольких полях fill-element кодированного битового потока в указанном временном интервале; и
- определяют величину полезной нагрузки на основе суммы нетто данных.

4. Способ по п.3, отличающийся тем, что величина полезной нагрузки соответствует сумме нетто данных.

5. Способ по одному из предыдущих пунктов, отличающийся тем, что
- кодированный битовый поток включает ряд кадров, каждый кадр соответствует отрывку звукового сигнала с заранее определенной продолжительностью во времени; и
- временной интервал соответствует кадру кодированного битового потока.

6. Способ по п.1, отличающийся тем, что этап повторения выполняется для всех кадров кодированного битового потока.

7. Способ по п.1, отличающийся тем, что идентификация периодичности включает этап, на котором:
- идентифицируют периодичность пиков в последовательности величин полезной нагрузки.

8. Способ по п.1, отличающийся тем, что идентификация периодичности включает этапы, на которых:
- выполняют спектральный анализ на последовательности величин полезной нагрузки, что приводит к набору значений энергии и соответствующих частот; и
- идентифицируют периодичность в последовательности величин полезной нагрузки путем определения относительного максимума в наборе значений энергии и выбора периодичности как соответствующей частоты.

9. Способ по п.8, отличающийся тем, что выполнение спектрального анализа включает этапы, на которых:
- выполняют спектральный анализ на ряде подпоследовательностей последовательности величин полезной нагрузки, что приводит к ряду наборов значений энергии; и
- осуществляют усреднение ряда наборов значений энергии.

10. Способ по п.9, отличающийся тем, что подпоследовательности ряда являются частично перекрывающимися.

11. Способ по одному из пп.8-10, отличающийся тем, что выполнение спектрального анализа включает выполнение преобразования Фурье.

12. Способ по п.11, отличающийся тем, что также включает этап, на котором:
- осуществляют умножение набора значений энергии на весовые коэффициенты, связанные с предпочтениями человеческого восприятия соответствующих им частот.

13. Способ по п.12, отличающийся тем, что извлечение информации о темпе включает этап, на котором:
- определяют частоту, соответствующую абсолютному максимальному значению набора значений энергии; где указанная частота соответствует физически выраженному темпу звукового сигнала.

14. Способ по п.1, отличающийся тем, что звуковой сигнал включает музыкальный сигнал, и где извлечение информации о темпе включает оценку темпа музыкального сигнала.

15. Носитель данных, включающий программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способа по одному из пп.1-14 при осуществлении на вычислительном устройстве.

16. Переносное электронное устройство, которое содержит:
- блок памяти, сконфигурированный для хранения в памяти звукового сигнала;
- блок воспроизведения звукового сигнала, сконфигурированный для воспроизведения звукового сигнала;
- пользовательский интерфейс, сконфигурированный для получения запроса от пользователя на информацию о темпе звукового сигнала; и
- процессор, сконфигурированный для определения информации о темпе путем выполнения этапов способа по одному из пп.1-14 на звуковом сигнале.

17. Система, сконфигурированная для извлечения информации о темпе звукового сигнала из сжатого кодированного битового потока репликации спектральной полосы звукового сигнала, где кодированный битовый поток включает данные репликации спектральной полосы звукового сигнала, где система содержит:
- средства для определения величины полезной нагрузки, связанной с количеством данных репликации спектральной полосы, заключенных в кодированный битовый поток, для некоторого временного интервала звукового сигнала;
- средства для повторения этапа определения для последовательных временных интервалов кодированного битового потока звукового сигнала и, таким образом, для определения последовательности величин полезной нагрузки;
- средства для идентификации периодичности в последовательности величин полезной нагрузки; и
- средства для извлечения информации о темпе звукового сигнала из идентифицированной периодичности.

18. Способ генерирования кодированного битового потока, включающего метаданные звукового сигнала, где способ включает этапы, на которых:
- определяют метаданные, связанные с темпом звукового сигнала, где темп определен в соответствии с этапами способа по одному из пп.1-14; и
- вставляют метаданные в кодированный битовый поток.

19. Способ по п.18, отличающийся тем, что метаданные включают данные, представляющие физически выраженный темп звукового сигнала.

20. Способ по п.19, отличающийся тем, что метаданные включают данные, представляющие спектр модуляции из звукового сигнала, где спектр модуляции включает ряд частот появления события и соответствующий ряд значений значимости, где значения значимости указывают относительную значимость соответствующих частот появления события в звуковом сигнале.

21. Способ по п.20, отличающийся тем, что также включает этап, на котором:
- кодируют звуковой сигнал в последовательность данных полезной нагрузки кодированного битового потока с использованием одного из следующих кодеров: НЕ-ААС, МР3, AAC, Dolby Digital или Dolby Digital Plus.

22. Аудиокодер, сконфигурированный для генерирования кодированного битового потока, включающего метаданные звукового сигнала, где кодер включает:
- средства для определения метаданных, связанных с темпом звукового сигнала, где темп определен в соответствии с этапами способа по одному из пп.1-14; и
- средства для вставки метаданных в кодированный битовый поток.



 

Наверх