Способ идентификации музыкальных произведений

Авторы патента:

G10L21/06 - преобразование речи в неслышимое представление, например визуализация речи, обработка речи для восприятия ее путем осязания (G10L 15/26 имеет преимущество)

G10L15/10 - с использованием измерения расстояний или искажений между неизвестным речевым и эталонным шаблонами

Владельцы патента RU 2662939:

Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" (RU)

Изобретение относится к технике анализа воспроизводимых музыкальных произведений и может быть использовано для идентификации музыкальных произведений, контроля авторства музыкальных произведений. Технический результат заключается в повышении качества идентификации за счет возможности использования признаков, однозначно характеризующих воспроизводимое музыкальное произведение. Осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение. Производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности. Осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье. Осуществляют преобразование набора частотных спектров в набор идентификационных показателей. Сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения. При этом преобразование набора частотных спектров в набор идентификационных показателей осуществляют с использованием искусственной сверточной нейронной сети. 1 з.п. ф-лы, 2 ил.

Известен способ идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор спектрограмм или частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора частотных спектров в набор аудиоотпечатков, сравнивают аудиоотпечатки, характеризующие воспроизводимое музыкальное произведение, и аудиоотпечатки, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения (см. патент РФ на полезную модель №81614, МПК H04N 7/173, публ. 2006 г.). К недостаткам известного способа можно отнести недостаточное качество идентификации, невысокую шумоустойчивость и использование сложного алгоритма идентификации.

Наиболее близким по технической сущности к предлагаемому является способ идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор спектрограмм или частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора спектрограмм в набор идентификационных показателей (аудиоотпечатки), сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения ((см., например, Shazam: алгоритмы распознавания музыки, сигнатуры, обработка данных, https://habrahabr.ru, или патент US 6990453). К недостаткам известного способа также можно отнести недостаточное качество идентификации, невысокую шумоустойчивость и использования сложного алгоритма идентификации.

Предлагаемый способ направлен на решение задачи и достижение технического результата, состоящего в повышении качества идентификации, возможности использования упрощенного алгоритма идентификации за счет возможности использования признаков, однозначно характеризующих воспроизводимое музыкальное произведение, и при этом имеется возможность повышения эффективности за время применения.

Данный технический результат достигается тем, что в способе идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора частотных спектров в набор идентификационных показателей, сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения, при этом преобразование набора частотных спектров в набор идентификационных показателей осуществляют с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов, сравнивают попарно карты опорных векторов, характеризующих воспроизводимое музыкальное произведение, и карты опорных векторов, характеризующих оригинальные музыкальные произведения, с определением расстояния между картами опорных векторов, и при совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения делают вывод о том, что имеет место воспроизведение этого музыкального произведения.

Осуществление преобразования набора частотных спектров в набор идентификационных показателей с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов, позволяет повысить качество идентификации и обеспечить возможность использования упрощенного алгоритма идентификации за счет использования признаков (карты опорных векторов), представляющих собой массивы чисел фиксированной размерности, однозначно характеризующих воспроизводимое музыкальное произведение, которые устойчивы к искажению и зашумлению. При этом имеется возможность повышения эффективности способа за время применения, так как искусственная сверточная нейронная сеть имеет свойство формироваться самостоятельно в процессе функционирования, например, путем обучения сети классическим методом обратного распространения ошибки (см. Сверточная нейронная сеть. Материал из Википедии. https://wikipedia.org/wiki).

Сравнение попарно карт опорных векторов, характеризующих воспроизводимое музыкальное произведение, и карт опорных векторов, характеризующих оригинальные музыкальные произведения, производится с определением расстояния между картами опорных векторов, например, с использованием классической формулы Евклидовой метрики для вычисления расстояния между векторами, и при совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения делают вывод о том, что имеет место воспроизведение этого музыкального произведения, также позволяет повысить качество идентификации, так как сравнение осуществляется на основе карт опорных векторов, представляющих собой массивы чисел фиксированной размерности, однозначно характеризующих воспроизводимое музыкальное произведение, которые устойчивы к искажению и зашумлению, а также позволяет использовать более простой, по сравнению с аудиоотпечатками, алгоритм поиска по базе данных.

На фиг. 1 представлен пример изображения спектрограмм, подаваемых на вход искусственной сверточной нейронной сети; на фиг. 2 - пример изображения с картой опорных векторов на выходе из искусственной сверточной нейронной сети.

Звуковой сигнал от воспроизводимого музыкального произведения представляют как входные информационные данные или аудиопоток в цифровом виде, который разбивают на набор фрагментов фиксированной длительности, и осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье (см. фиг. 1). На данном этапе указанные операции совпадают с операциями по способу идентификации музыкальных произведений Shazam. Затем осуществляется преобразование набора частотных спектров в набор идентификационных показателей с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов.

Массив частотных спектров, явный вид которых представляется в виде матриц строго определенного размера 128×128 пикселя, подается на вход сверточной нейронной сети (deep neural network, DNN). Соответственно размер входного слоя нейросети равен 128×128×1.

Первый скрытый слой нейросети представляет собой 32 различных сверточных фильтра размером 3×3×1. Размер сверточного слоя получается равным 32×3×3×1. На выходе имеем 32 карты размером 64×64. Второй скрытый слой выполняет функцию объединения максимумов из выходов первого слоя. Для каждого региона размером 3×3 выбирается максимальный элемент, регион выбирается с шагом 2. Таким образом, размер данного объединяющего слоя равен 32×3×3×32, а его выходом являются карты размером 32×32.

Далее опять следует сверточный слой - третий скрытый слой, представляющий собой 64 фильтров размером 3×3. Физический смысл этого слоя - извлечение низкоуровневых особенностей для каждого пространственного участка спектрограммы. В качестве особенностей имеются в виду: границы, текстуры.

Следующие 3 слоя размером соответственно 16×16×64, 8×8×64, 4×4×32 последовательно уменьшают размерность данных - примитивных особенностей, объединяя их в связные группы, которые уже характеризуют формы и особенности частотных спектров. Размер выхода последнего слоя 32 карт размером 4×4.

Выход этого слоя трактуется как сырое представление уникальных признаков музыкального произведения: частотные особенности, наличие вокала, набор инструментов и т.д. Однако прямо и однозначно связать эти значения с реальными размерами на изображении нельзя. Слой обучен таким образом, чтобы каждая особенность минимально коррелировала с любой другой. Выходной вектор используется в качестве вектора-идентификатора, представленного на изображении частотных спектров, используется для ее идентификации. Карта опорных векторов на выходе из искусственной сверточной нейронной сети представлена на фиг. 2. В базе данных уже имеются карты опорных векторов, характеризующие оригинальные музыкальные произведения, которые предварительно получены также с использованием искусственной сверточной нейронной сети. Для всех сверточных слоев, как показали наши исследования, наиболее целесообразно для данной нейронной сети в качестве функции активации использовать функцию ELU (Exponential Linear Unit, сама по себе данная функция известна, см. http://datareview.info/article/obuchaem-). Сравнение опорных векторов характеризует воспроизводимое и оригинальное музыкальное производение, например, с использованием классической формулы Евклидовой метрики для вычисления расстояния между векторами. При совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения (обычно не менее 0,75) делают вывод о том, что имеет место воспроизведение этого музыкального произведения.

Таким образом, заявленный способ идентификации музыкальных произведений обеспечивает повышение качества и точности распознавания за счет применения нейросети для обработки массива частотных спектров, полученных в результате обработки музыкального произведения, использующей всю доступную информацию из массива спектров, с использованием признаков, однозначно характеризующих воспроизводимое музыкальное произведение, а также обладающей возможностью обучения и повышения эффективности за время применения.

1. Способ идентификации музыкальных произведений, в котором осуществляют прием входных информационных данных в цифровом виде, характеризующих воспроизводимое музыкальное произведение, производят разбиение цифрового аудиопотока на набор фрагментов фиксированной длительности, осуществляют преобразование набора фрагментов в набор частотных спектров при помощи быстрого преобразования Фурье, осуществляют преобразование набора частотных спектров в набор идентификационных показателей, сравнивают идентификационные показатели, характеризующие воспроизводимое музыкальное произведение, и идентификационные показатели, характеризующие оригинальные музыкальные произведения, и на основе такого сравнительного анализа делают вывод о том, что имеет место воспроизведение этого музыкального произведения, отличающийся тем, что преобразование набора частотных спектров в набор идентификационных показателей осуществляют с использованием искусственной сверточной нейронной сети с получением на выходе в качестве идентификационных показателей, характеризующих воспроизводимое музыкальное произведение, карты опорных векторов, сравнивают попарно карты опорных векторов, характеризующих воспроизводимое музыкальное произведение, и карты опорных векторов, характеризующих оригинальные музыкальные произведения, с определением расстояния между картами опорных векторов, и при совпадении этих расстояний в отношении какого-либо оригинального музыкального произведения не менее определенного порогового значения делают вывод о том, что имеет место воспроизведение этого музыкального произведения.

2. Способ идентификации музыкальных произведений по п. 1, отличающийся тем, что все сверточные слои в качестве функции активации используют функцию ELU.

Изобретение относится к области коммуникации людей, в частности людей с ограниченными возможностями здоровья по слуху со слышащими. Техническим результатом является повышение коммуникативности связи между людьми с ограниченными возможностями здоровья по слуху и слышащими в режиме реального времени.

Способ цветового отображения звуковых стереосигналов и устройство его осуществления // 2438747

Изобретение относится к устройствам цветомузыки и может быть использовано для перевода двухканальной стереофонии в цветовые образы. .

Способ и устройство формирования изображения для распознавания направления распространения звука речи // 2345422

Изобретение относится к техническим средствам для распознавания направления распространения звука речи и ориентации глухонемых людей в пространстве. .