Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала

Авторы патента:

Жидков Сергей Викторович (RU)

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2459281:

Общество с ограниченной ответственностью "Цифрасофт" (RU)

Изобретение относится к технике идентификации акустических сигналов и, в частности, к устройству и способу распознавания акустического сигнала. Способ формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включает выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1≤n≤N) фрейма. При этом для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные, для каждого n-го фрейма, начиная с (1+t)-го (где 1≤t≤N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма, полученные дифференциальные отсчеты объединяют в подгруппы, находят сумму дифференциальных отсчетов каждой из подгрупп, объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов, из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t)≤n≤N)) фрейма акустического сигнала. Приведены варианты реализации устройства формирования сигнатуры акустического сигнала и устройства идентификации акустического сигнала. Технический результат - обеспечение высокой вероятности обнаружения искаженных акустических сигналов при фиксированной вероятности ложного обнаружения. 3 н. и 8 з.п. ф-лы, 6 ил.

Предлагаемые технические решения относятся к способам и устройствам для распознавания и сравнения принимаемой информации с эталонной, в частности - к технике идентификации акустических сигналов.

Задача сравнения акустических сигналов возникает в ряде приложений, например, для мониторинга и идентификации музыкальных композиций, транслируемых по каналам телевизионного и радиовещания, для задач измерения аудитории теле-/радиоканалов, а так же в некоторых других приложениях.

Известны различные способы сравнения акустических сигналов.

Например, сравнение может производиться в системах распознавания передаваемых сигналов с помощью методов корреляционного анализа (патенты США US 3919479 [1] и US 4450531 [2]), сущность которых заключается в том, что фрагмент принимаемого акустического сигнала разделяют на сегменты, которые оцифровывают, затем вычисляют корреляцию каждого из сегментов с сегментами оцифрованных оригинальных сигналов, которые хранят в устройстве сравнения. При полном совпадении сегментов либо частичном, удовлетворяющем установленному порогу, принимается решение об удовлетворительной идентификации (подлинности) принимаемого акустического сигнала.

Однако такой подход обладает рядом существенных недостатков:

Во-первых, вычисление корреляции двух оцифрованных сегментов акустических сигналов очень ресурсоемкая операция.

Во-вторых, два акустических сигнала, которые звучат практически идентично для человеческого уха в силу психоакустических особенностей слуха человека (нечувствительность к фазовым искажениям, эффект маскирования и т.д.), могут существенно отличаться по форме колебания, что ведет к невозможности применения корреляционного метода для их сравнения.

В-третьих, в некоторых приложениях, где требуется сравнение (идентификация) большого количества акустических фрагментов, хранение базы исходных оцифрованных акустических сигналов может потребовать чрезмерно большого объема памяти.

Для преодоления этих недостатков для сравнения акустических сигналов стали применять метод аудио-сигнатур (вычисленных компактных числовых значений выбранных фрагментов сигнала, которые отражают основные психоакустические характеристики этих фрагментов). В рамках данного подхода, для сравнения двух или более фрагментов акустических сигналов предварительно вычисляются аудио-сигнатуры оригинальных фрагментов, которые отражают основные психоакустические характеристики этих фрагментов сигнала, и затем проводится сравнение найденных аудио-сигнатур с соответствующими им аудио-сигнатурами проверяемого сигнала.

Следует отметить, что концепция сигнатур широко применяется не только для задач сравнения акустических сигналов, но и в криптографии, компьютерной безопасности (для обнаружения компьютерных вирусов), при поиске видеоизображений и т.д.

Таким образом, ключевой задачей является разработка методов генерации «хороших» сигнатур. «Хорошими» будем называть сигнатуры (в том числе аудио-сигнатуры), отличающиеся следующими свойствами:

(1) Малая чувствительность к небольшим искажениям и преобразованиям (например, компрессии, фильтрации и т.д.), возникающим при передаче исходного аудиосигнала, но сохраняющим его приемлемое качество;

(2) Компактность: сигнатура должна иметь минимальный размер для облегчения поиска и хранения больших массивов оригинальных сигнатур;

(3) Простота метода вычисления и корреляции сигнатур (важно для мобильных приложений, где вычислительные ресурсы процессора ограничены).

Часто для формирования аудио-сигнатур используется представление акустического сигнала в частотной области, так как такой метод позволяет получить сигнатуры, обладающие первым свойством «хороших» сигнатур. Например, в патенте США US 4843562 [3] предложен метод сравнения звуковых сигналов, в котором в качестве сигнатур (или паттернов, как их называют в [3]) используют образцы спектрограмм фрагментов звуковых сигналов. Однако вычисленные таким образом сигнатуры не обладают компактностью, а их поиск и сравнение достаточно ресурсоемки.

Один из популярных методов вычисления аудио-сигнатур был предложен в [4] (см. также патент США US 7549052 [5]). Предложенный метод вычисления сигнатуры включает в себя следующие этапы:

(1) Разбивают фрагмент сигнала на N≥1 перекрывающихся фреймов (отрезков предпочтительно равного размера);

(2) Для каждого из выделенных фреймов вычисляют преобразование Фурье;

(3) Затем для каждого преобразования Фурье фрейма вычисляют по известным формулам энергию сигнала в М≥1 полосах частот. Получают матрицу из найденных значений энергий E(n,m), где n - номер фрейма, a m - индекс частотной полосы.

(4) Аудио-сигнатура для данного фрагмента сигнала вычисляется согласно формуле:

В конечном итоге, аудио-сигнатура звукового фрагмента представляет собой набор бит H(n,m), где n=1,…,N, и m=1,…,М.

Структурная схема вычисления аудио-сигнатуры согласно описанному способу изображена на фиг.1.

Сигнатуры, полученные таким способом, будут меняться при модификациях (искажениях) исходного звукового сигнала при передаче (например, из-за компрессии или зашумленности канала связи). Однако, в целом, можно ожидать, что при сравнении аудио-сигнатур одинаковых на слух двух звуковых фрагментов (оригинального и принятого по каналу связи), совпадать будет большее количество бит, чем при сравнении аудио-сигнатур разных фрагментов. Таким образом, фиксация факта совпадения звуковых фрагментов может быть осуществлена путем сравнения количества совпадающих бит аудио-сигнатуры с заранее установленным порогом.

Данный метод сравнения звуковых сигналов хорошо зарекомендовал себя на практике. Однако у него все же есть ряд недостатков:

(1) Размер сигнатуры. Так, в соответствии с источником [4], для получения достоверных результатов сравнения, требуется использовать хотя бы 32-бита сигнатуры на каждый фрейм (М≥32). При стандартном шаге фрейма 12 мс, аудио-сигнатура секундного фрагмента (с 86-ю фреймами) будет содержать 344 байта;

(2) Ресурсоемкий поиск (сравнение сигнатур принятого записанного фрагмента с имеющимися эталонными - особенно, при реализации на мобильных устройствах). Так, в системе команд многих мобильных процессоров (например, семейства ARM) нет специализированной инструкции для определения количества ненулевых бит в слове. Таким образом, подсчет числа единиц в аудио-сигнатуре приходится реализовывать программно, что занимает существенную часть процессорного времени. Например, для архитектуры ARM оптимизированный код для подсчета числа ненулевых бит только в одном 32-битном слове занимает как минимум 10 машинных циклов. Таким образом, для сравнения текущего принимаемого сигнала с большой базой данных оригинальных, сигнатур (поиск сигнатуры для идентификации фрагмента) требуется недопустимо большое время.

Целью настоящей заявки является создание устройства и способа формирования сигнатуры акустического сигнала, а также устройства идентификации акустического сигнала, которые позволяют сократить размер сигнатуры и минимизировать количество ресурсоемких вычислительных операций при сравнении сигнатур. При этом вышеуказанные устройства и способ должны обеспечить высокую вероятность обнаружения зашумленных и искаженных акустических сигналов (их фрагментов) при фиксированной вероятности ложного обнаружения.

Цель достигается в Способе формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включающем выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1≤n≤N) упомянутого фрейма, тем, что

- для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные,

- для каждого n-го фрейма, начиная с (1+t)-го (где 1≤t≤N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма,

- полученные дифференциальные отсчеты объединяют в подгруппы, определяют сумму найденных дифференциальных отсчетов каждой из подгрупп,

- объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов,

- из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t)≤n≤N)) фрейма акустического сигнала.

Предпочтительно, чтобы в Способе формирования сигнатуры для выполнения частотного преобразования на оцифрованный акустический сигнал каждого n-го (1≤n≤N) фрейма накладывали оконную функцию.

Предпочтительно, чтобы в Способе формирования сигнатуры для положительных преобразований значений отсчетов использовали функцию возведения в квадрат (квадратичную) либо взятие модуля.

Предпочтительно, чтобы в Способе формирования сигнатуры для выполнения частотного преобразования использовали преобразование Фурье либо быстрое преобразование Фурье.

Предпочтительно, чтобы в Способе формирования сигнатуры акустический сигнал разбивали на перекрывающиеся фреймы.

Цель достигается также в Устройстве формирования сигнатуры акустического сигнала, содержащем последовательно соединенные посредством Портов вывода и портов ввода Блок разбиения на фреймы, вход которого является входом устройства. Блок частотного преобразования, Блок положительных преобразователей, Буфер задержки, Блок вычитателей, Блок разбиения на группы и подгруппы, Блок экстремальных значений и Блок накопления сигнатур, выход которого является выходом устройства, причем Порт вывода блока положительных преобразователей соединен с дополнительным Портом ввода Блока вычитателей.

Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала Блок разбиения на фреймы был подключен к Блоку частотного преобразования через Блок наложения оконной функции.

Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала Блок положительных преобразователей был реализован на функции возведения в квадрат либо взятии модуля.

Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала Блок частотного преобразования был реализован на преобразовании Фурье либо Быстром преобразовании Фурье.

Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала в Блоке разбиения на фреймы разбивают входной сигнал на перекрывающиеся фреймы.

Цель достигается также в Устройстве идентификации акустического сигнала тем, что Устройство формирования сигнатуры акустического сигнала выполнено, как описано выше. При этом Устройство идентификации содержит микрофон, являющийся входом устройства, к которому через аналого-цифровой преобразователь подключено Устройство формирования сигнатуры акустического сигнала, к выходу которого подключен хотя бы один Блок сходства сигнатур, выход которого подключен к Порту ввода блока сравнения с порогом для принятия решения, выход которого является выходом устройства, причем второй вход упомянутого блока сходства сигнатур и вход блока сравнения с порогом являются портом ввода устройства.

Устройство идентификации акустического сигнала, устройство формирования сигнатуры акустического сигнала могут быть реализованы, но без ограничения, на: пользовательском оборудовании (UE), мобильной станции, стационарной или подвижной абонентской установке, пейджере, мобильном телефоне, карманном компьютере (PDA), компьютере или пользовательском устройстве любого другого типа, способном воспринимать акустические сигналы с помощью микрофона.

Представленные устройство формирования сигнатуры акустического сигнала и заявленный способ или блок-схема последовательности операций способа могут быть реализованы в компьютерной программе, программном обеспечении или встроенном программном обеспечении, материально воплощенном в машиночитаемом носителе данных, для исполнения посредством компьютера общего назначения или процессора. Примеры машиночитаемых носителей данных включают в себя постоянное запоминающее устройство (ПЗУ; ROM), оперативное запоминающее устройство (ОЗУ; RAM), регистр, кэш-память, полупроводниковые устройства памяти, магнитные носители, такие как внутренние жесткие диски и сменные диски, магнитооптические носители и оптические носители, такие как компакт-диски, предназначенные только для чтения (CD-ROM), и цифровые универсальные диски (DVD).

Подходящие процессоры включают в себя, в качестве примера, процессор общего назначения, специализированный процессор, традиционный процессор, процессор цифровых сигналов (DSP), множество микропроцессоров, один или более микропроцессоров вместе с ядром процессора DSP, контроллер, микроконтроллер, специализированные интегральные схемы (ASIC), схемы с программируемыми вентильными матрицами (FPGA), интегральную схему (IC) любого другого типа и/или конечный автомат.

Процессор вместе с программным обеспечением может быть использован для реализации радиочастотного приемопередатчика для использования в блоке беспроводной передачи и приема (WTRU), пользовательском оборудовании (UE), терминале, базовой станции, контроллере беспроводной сети (RNC) или любом главном компьютере. WTRU может использоваться в соединении с модулями, реализованными в аппаратном оборудовании и/или программном обеспечении, такими как головной телефон, модуль Bluetooth®, блок радио в диапазоне частотной модуляции (FM), цифровой аудиоплейер, универсальный проигрыватель, модуль для видеоигр, программа обозреватель Интернета и/или любой модуль беспроводной локальной сети (WLAN).

Далее более детальное понимание и описание изобретений может быть получено из нижеследующих описаний работы предпочтительных вариантов их осуществления, данных в качестве примеров вместе с сопроводительными чертежами, на которых:

Фиг.1 показывает схему вычисления аудио-сигнатуры в ближайшем аналоге.

Фиг.2 - функциональная схема устройства формирования сигнатуры акустического сигнала в предпочтительном варианте.

Фиг.3 показывает пример разбиения дифференциальных отсчетов на группы при М=3, I=4.

Фиг.4 - последовательность выполнения способа формирования сигнатуры акустического сигнала в предпочтительном варианте.

Фиг.5 - функциональная схема устройства идентификации акустического сигнала.

Фиг.6 (а), (б) - графики, иллюстрирующие поведение вероятности битовой ошибки и количества совпадающих индексов при использовании ближайшего аналога (а) и предлагаемых изобретений (b).

На фиг.2 изображена функциональная схема предлагаемого в качестве изобретения устройства формирования сигнатуры акустического сигнала 1 (УФС), содержащего блок разбиения на фреймы 2 (РФ), вход которого является входом устройства, а Порт вывода соединен с Портом ввода блока наложения оконной функции 3 (ОФ), аналогично подключенного через последовательно соединенные блок частотного преобразования 4 (ЧП), блок положительных преобразователей 5 (ПП), буфер задержки 6 (БЗ) и блок вычитателей 7 (БВ) к блоку разбиения на группы и подгруппы 8 (РГП). При этом Порт вывода ПП5 соединен с дополнительным Портом ввода БВ 7.

К Порту вывода РГП 8 подключен блок экстремальных значений 9 (ЭкстрЗн). С Порта выхода ЭкстрЗн 9 в блок накопления сигнатур 10 (БИС) поступают индексы групп с экстремальными значениями для аудио-сигнатур каждого из фреймов, где из них составляют последовательность сигнатур отдельных фреймов, являющуюся аудио-сигнатурой звукового фрагмента (акустического сигнала). Выход БНС 10 является выходом устройства формирования сигнатуры акустического сигнала, с которого сформированную сигнатуру акустического сигнала передают для дальнейшего использования.

Далее способ формирования сигнатуры акустического сигнала описан на примере работы описанного устройства формирования сигнатуры акустического сигнала.

На вход устройства формирования аудио-сигнатуры поступает оцифрованный акустический сигнал, из которого далее получают аудио-сигнатуру следующим образом:

(1) Оцифрованный звуковой сигнал в блоке РФ 2 разбивают на N≥1 фреймов (перекрывающихся или не перекрывающихся), каждый из которых передают через Порт вывода РФ 2;

(2) Затем в блоке ОФ 3 опционально на каждый фрейм накладывают оконную функцию (например, окно Ханна) для уменьшения эффекта боковых лепестков на выходе блока частотного преобразования.

(3) Далее в блоке ЧП 4 выполняют частотное преобразование для каждого текущего фрейма, получая данные через Порт ввода ЧП 4. В настоящей реализации изобретений вычисляют преобразование Фурье. Возможно также использование любых других известных преобразований, например, быстрого преобразования Фурье, дискретного косинусного преобразования. Преобразованные сигналы передают через Порт вывода ЧП 4;

(4) В блоке ПП 5 последовательно берут квадраты амплитуд всех участков - отсчетов преобразованного сигнала каждого из фреймов (в соответствующем преобразователе), преобразуя все значения отсчетов (x_k, 1≤k≤K, K - количество отсчетов фрейма) в положительные (далее - положительные отсчеты). В данной реализации используют функцию возведения в квадрат - получают набор для каждого n-го фрейма. Возможно также использование других функций в преобразователях блока ПП 5 - например, взятие модуля (вычисление абсолютных значений отсчетов x_k);

(5) БЗ 6 необходим для задержки найденных положительных отсчетов на выходе ПП 5 на N≥t≥1 фреймов (в данной реализации t=1);

(6) Через дополнительный Порт ввода и Порт ввода БВ 7 на каждый из вычитателей поступают соответствующие положительные отсчеты n-го и предыдущего (n-t) (в данном случае (n-1)-го) фрейма соответственно. Таким образом, в БВ 7 вычитателями вычисляют для каждого n-го фрейма разности между положительными отсчетами этого фрейма и соответствующими положительными отсчетами соседнего фрейма. То есть в каждом из К вычитателей из каждого выходного значения квадрата преобразования Фурье, вычисленного для текущего фрейма, вычитается соответствующее значение, вычисленное для предыдущего фрейма: D(n,k)=X(n,k)-X(n-1,k) при t=1 Причем в разных реализациях изобретений либо вычисляют D(1,k), имея предыдущие отсчеты X(0,k), либо вычисляют D(n,k), начиная с n=2. Далее D(n,k) будем называть дифференциальными значениями отсчетов;

(7) Далее в блоке РГП 8 все дифференциальные значения отсчетов D(n,k) текущего n-го фрейма (поступают в РГП через его Порт ввода) разбивают (объединяют) на М групп (m=1,2,…,М) по I≥1 подгрупп в каждой так, что внутри группы каждая подгруппа состоит из фиксированного числа Pm отсчетов D(n,k). Количество отсчетов в подгруппе внутри одной группы одинаковое. В другой группе количество отсчетов в подгруппе может быть иным. На фиг.3 приведен пример разбиения отсчетов для n-го фрейма для К=32: количество групп М=3, подгрупп в группе I=4, количество отсчетов в подгруппе - 2 или 3 (понятно, что схема имеет смысл, если К можно разбить на М групп по I подгруппе в каждой);

(8) Далее в блоке РГП 8 значения D(n,k), соответствующие каждой подгруппе, суммируют, так что для каждой группы получается набор суммарных значений S(n,m,i), которые с порта вывода РГП 8 поступают через Порт ввода ЭкстрЗн 9, а именно - на блок поиска максимального значения в этой группе (на Фиг.2 - МахЗн) в данной реализации изобретений;

(9) В соответствующих блоках МахЗн внутри каждой группы m=1,2,…,М находят подгруппу с максимальным значением суммы S(n,m,i), запоминают ее номер: и передают в БНС 10 через его Порт ввода;

(10) Набор индексов , m=1,2,…M представляет собой сигнатуру текущего n-го фрейма;

Так, находят сигнатуры каждого из 2≤n≤N фреймов выбранного акустического сигнала в данной реализации изобретений.

(11) Аудио-сигнатуру звукового фрагмента (или данного обработанного акустического сигнала) собирают (накапливают) в БИС 10. Сигнатура данного акустического сигнала представляет собой множество , где 1+t≤n≤N.

В предпочтительном варианте, желательно, чтобы число подгрупп внутри одной группы равнялось I=2^р, где р - целое число. В этом случае для представления одного индекса потребуется целое число бит.

Для удобства последовательность выполнения описанного способа формирования сигнатуры n-го фрейма акустического сигнала дополнительно проиллюстрирована на фиг.4.

На фиг.5 изображена функциональная схема предлагаемого в качестве изобретения устройства идентификации акустического сигнала 29 (Устройство идентификации), позволяющего сравнивать и проводить поиск аудио-сигнатур принимаемых акустических сигналов с базой данных оригинальных аудио-сигнатур, вычисленных, как описано выше. Устройство идентификации содержит микрофон 30, являющийся входом устройства идентификации, сигнал с которого поступает на вход аналого-цифрового преобразователя 31 (АЦП), выход которого подключен к входу УФС 1, к выходу которого параллельно подключены первые входы S≥1 блоков сходства сигнатур 32 (БСС) - вычисленной сигнатуры поступающего акустического сигнала с оригинальной сигнатурой, подаваемой на второй вход каждого БСС из базы данных сигнатур. Выходы каждого из БСС 32 подключены к Порту ввода блока сравнения с порогом 34 (СП) для принятия решения, на вход которого подают значение порога совпадения сигнатур. На выход СП 34, являющийся выходом устройства идентификации, поступает решение о подлинности или неподлинности принимаемого сигнала. Вторые входы блоков БСС 32 и вход блока СП 34 являются портом ввода устройства идентификации.

Устройство идентификации работает следующим образом.

На вход устройства идентификации поступает акустический сигнал, который оцифровывают в АЦП 31. Формируют сигнатуру фрагмента этого сигнала в УФС 1, как описано выше. Затем передают ее в каждый из S блоков БСС. При этом на вторые входы блоков БСС поступают различные заранее рассчитанные оригинальные сигнатуры из имеющейся базы данных.

В каждом из БСС определяют степень сходства сигнатур - насколько совпадает найденная сигнатура с имеющейся оригинальной сигнатурой путем сравнения максимальных индексов , , ,… этих сигнатур. То есть при сравнении аудио-сигнатур в каждом из блоков БСС 32 фиксируют факт совпадения/несовпадения индексов выделенного акустического сигнала и соответствующих индексов оригинальной аудио-сигнатуры, и подсчитывают число совпадающих индексов (степень сходства сигнатур). При идеальном совпадении аудиофрагментов, состоящих из N фреймов, число совпадающих индексов в аудио-сигнатуре будет равно (N-1)×M в данной реализации изобретений. При сравнении отличающихся (некоррелированных) фрагментов в среднем число совпадающих индексов будет приблизительно равно (N-1)×M/I. Поэтому оптимальный порог для принятия решения о совпадении аудиофрагментов Т устанавливают в диапазоне от (N-1)×M/I до (N-1)×M в зависимости от соотношений требуемой вероятности ложной тревоги и правильного обнаружения.

Степени сходства передают в СП 34, где среди них находят максимальное, сравнивают ее с выбранным значением порога Т, поступающим на вход СП 34, и принимают решение об идентификации (если максимальная степень сходства не меньше Т) либо ложности принимаемого сигнала (если максимальная степень сходства меньше Т).

Понятно, что в практической реализации при наличии больших баз оригинальных аудио-сигнатур используют большое количество БСС для увеличения скорости идентификации текущего акустического фрагмента сигнала, поступающего с микрофона. Причем для формирования новой аудио-сигнатуры текущего акустического сигнала может быть использован «скользящий метод» - из предыдущей сигнатуры удаляют сигнатуру первого фрейма и добавляют в конец предыдущей сигнатуры сигнатуру нового (следующего) фрейма принимаемого акустического сигнала.

Хотя отличительные признаки и элементы описаны в предпочтительных вариантах осуществления в конкретных комбинациях, надо понимать, что каждый отличительный признак или элемент может использоваться один без других отличительных признаков и элементов предпочтительных вариантов осуществления или в различных комбинациях с другими отличительными признаками и элементами настоящих изобретений или без них.

Например: - в блоке ЭкстрЗн 9 вместо максимальных могут определять минимальные значения;

- при наличии одного БСС 32 (S=1) нахождение максимума не требуется, поэтому в СП 34 сразу принимают решение о подлинности/ложности акустического сигнала по порогу Т;

- при наличии нескольких КСИ 32 для принятия решения среди найденных значений сходства сигнатур, поступающих на порт ввода СП 34, возможен поиск хотя бы одного, удовлетворяющего условию подлинности акустического сигнала,

и т.д.

Эффект от изобретения.

Экспериментально установлено, что при использовании рассматриваемой схемы вычисления и сравнения аудио-сигнатур с параметрами М=8 (число групп) и I=8 (число подгрупп в группе), характеристики обнаружения акустических фрагментов превосходят соответствующие характеристики способа, предложенного в ближайшем аналоге. Так, при одинаковой вероятности ложного срабатывания предложенные способ и устройства показывают более высокую вероятность обнаружения одинаковых (но возможно зашумленных или искаженных) акустических фрагментов. При этом в способе [4] сигнатура занимает N*32 бит, а в предложенных изобретениях аудио-сигнатура занимает N*8*log2(8)=N*24 бит, то есть на 25% компактнее.

Кроме того, предложенные изобретения имеют еще одно преимущество при реализации на процессорах, не имеющих аппаратной поддержки инструкций для вычисления количества ненулевых бит в слове (к таковым относятся, например, популярные микропроцессоры семейства ARM). Так, если в известных методах (например, [4], [5]) при сравнении сигнатур требуется одна операция вычисления веса (количества «1») 32-битного слова на каждый фрейм, то в предлагаемых изобретениях такую операцию можно использовать всего лишь один раз для четырех фреймов при соответствующем форматировании сигнатур. В результате поиск и сравнение сигнатур на типовых мобильных процессорах с использованием изобретений, предложенных в настоящей заявке, выполняется, от двух до четырех раз быстрее аналогов.

На фиг.6 приведен пример сравнения результатов работы предложенных изобретений с ближайшим аналогом [4]. В данном случае входной фрагмент разбивался на 415 фреймов и сравнивался с эталонным набором сигнатур, вычисленных по 9.5-минутному аудиотреку. Эталонный аудиотрек был разбит на 48300 перекрывающихся образцов сигнатур по 415 фреймов в каждом. На вход микрофона подавался сильно зашумленный акустический сигнал, соответствующий отрезку эталонного аудиотрека на 97-102 секундах звучания. В обоих случаях использовались одинаковые размеры фреймов и одинаковое перекрытие фреймов. В первом случае была вычислена вероятность битовой ошибки (BER) согласно ближайшему аналогу. Как видно из графика на фиг.6(а), BER колеблется возле значения 0.5, и даже там, где ожидается совпадение фрагмента с эталонным образцом, точка (с), BER не опускается ниже порога обнаружения. Для предложенных изобретений метрикой является количество совпадающих индексов (фиг.6(b)). Как видно из графика, это значение колеблется в диапазоне от 320 до 550, но в точке, где зашумленный аудиофрагмент совпадает с эталонным образцом (точка d), количество совпадающих индексов в аудио-сигнатуре резко возрастает - больше 720, что значительно превышает средний уровень и порог обнаружения (рассчитанный на вероятность ложной тревоги менее 10^-6).

Литература

1. Устройство формирования сигнатуры акустического сигнала, содержащее блок разбиения на фреймы, вход которого является входом устройства, а порт вывода подключен к порту ввода блока частотного преобразования, отличающееся тем, что содержит последовательно соединенные посредством их портов вывода и портов ввода подключенный к блоку частотного преобразования блок положительных преобразователей, буфер задержки, блок вычитателей, блок разбиения на группы и подгруппы, блок экстремальных значений и блок накопления сигнатур, выход которого является выходом устройства, причем порт вывода блока положительных преобразователей соединен с дополнительным портом ввода блока вычитателей.

2. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что блок разбиения на фреймы подключен к блоку частотного преобразования через блок наложения оконной функции.

3. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что блок положительных преобразователей реализован на квадратичной функции либо взятии модуля.

4. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что блок частотного преобразования реализован на преобразовании Фурье либо быстром преобразовании Фурье.

5. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что в блоке разбиения на фреймы разбивают входной сигнал на перекрывающиеся фреймы.

6. Способ формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включающий выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1≤n≤N) упомянутого фрейма, отличающийся тем, что
для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные,
для каждого n-го фрейма, начиная с (1+t)-го (где 1≤t≤N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма,
полученные дифференциальные отсчеты объединяют в подгруппы, определяют сумму найденных дифференциальных отсчетов каждой из подгрупп,
объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов,
из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t)≤n≤N) фрейма акустического сигнала.

7. Способ формирования сигнатуры акустического сигнала по п.6, отличающийся тем, что для выполнения частотного преобразования на оцифрованный акустический сигнал каждого n-го (1≤n≤N) фрейма накладывают оконную функцию.

8. Способ вычисления сигнатуры акустического сигнала по п.6, отличающийся тем, что для положительных преобразований значений отсчетов используют квадратичную функцию либо взятие модуля.

9. Способ вычисления сигнатуры акустического сигнала по п.6, отличающийся тем, что для выполнения частотного преобразования используют преобразование Фурье либо быстрое преобразование Фурье.

10. Способ вычисления сигнатуры акустического сигнала по п.6, отличающийся тем, что акустический сигнал разбивают на перекрывающиеся фреймы.

11. Устройство идентификации акустического сигнала, содержащее микрофон, являющийся входом устройства, к которому через аналого-цифровой преобразователь (АЦП) подключено устройство формирования сигнатуры акустического сигнала, к выходу которого подключен хотя бы один блок сходства сигнатур, выход которого подключен к порту ввода блока сравнения с порогом для принятия решения, выход которого является выходом устройства, причем второй вход упомянутого блока сходства сигнатур и вход блока сравнения с порогом являются портом ввода устройства, отличающееся тем, что устройство формирования сигнатуры акустического сигнала выполнено по п.1.

Изобретение относится к области обработки сигналов и может быть использовано при выполнении предварительной обработки речевого сигнала в системах распознавания речи.

Способ контактно-разностной акустической идентификации личности // 2451346

Изобретение относится к системам установления или подтверждения личности говорящего. .

Универсальные орфографические мнемосхемы // 2441287

Изобретение относится к прогаммным приложениям распознавания голоса, более конкретно к способу управления характерными особенностями фразы посредством приложения распознавания голоса.

Детектирование автоответчика путем распознавания речи // 2439716

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком.

Детектирование автоответчика путем распознавания речи // 2439716

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2436173

Изобретение относится к технике цифровой обработки речевых сигналов. .

Способ машинной оценки качества передачи речи // 2435232

Изобретение относится к способам анализа звуковых сигналов, передаваемых по каналам радиосвязи, телефонии и трактам переговорных устройств. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Способ аутентификации диктора по парольной фразе // 2422921

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. .

Система и способ распознавания речи // 2466468

Изобретение относится к технологиям распознавания речи, т.е

Способ электронного анализа диалога и система для осуществления этого способа // 2472219

Изобретение относится к средствам электронного оценивания диалога

Архитектура распознавания для генерации азиатских иероглифов // 2477518

Изобретение относится к распознаванию речи на азиатском языке

Устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования // 2493652

Изобретение относится к способам кодирования и декодирования аудиосигнала без потерь. Техническим результатом является повышение эффективности кодирования и снижение требуемого для кодирования объема памяти. Раскрыты устройство и способ основанного на контексте арифметического кодирования, а также устройство и способ основанного на контексте арифметического декодирования. Устройство, основанное на контексте арифметического декодирования может определять контекст текущего кортежа из N элементов, который должен быть декодирован, определять контекст старшего бита (MSB), соответствующий MSB-символу текущего кортежа из N элементов, и определять вероятностную модель с использованием контекста кортежа из N элементов и MSB-контекста. Затем устройство основанного на контексте арифметического декодирования может выполнять декодирование для MSB на основе определенной вероятностной модели и выполнять декодирование для младшего бита (LSB) на основе битовой глубины LSB, извлеченного из процесса декодирования для управляющего кода. 28 н. и 51 з.п. ф-лы, 29 ил.

Способ и система для предоставления речевого интерфейса // 2494476

Изобретение относится к пользовательскому интерфейсу на основе речевых команд. Техническим результатом является обеспечение более быстрого доступа к информации и решению задач, а также эффективная обработка предпочтений пользователя и контекста. Классифицирующий речевой интерфейс пользовательского терминала может принять запрос, произвести его анализ для идентификации атрибута и обработать запрос для выбора первого зависящего от домена речевого интерфейса из множества зависящих от домена речевых интерфейсов на основе указанного атрибута, при этом каждый зависящий от домена речевой интерфейс содержит информацию для обработки запросов различных типов. Кроме того, классифицирующий речевой интерфейс может подавать команду первому зависящему от домена речевому интерфейсу обработать указанный запрос и выдавать в речевой форме ответ первого зависящего от домена речевого интерфейса на указанный запрос. 6 н. и 21 з.п. ф-лы, 8 ил.

Способ обнаружения эмоций по голосу // 2510955

Изобретение относится к средствам распознавания эмоций человека по голосу. Технический результат заключается в повышении точности определения эмоционального состояния русскоязычного абонента. Обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос, соответственно, и обнаруживают в виде величины времени, интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала. Получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, и вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени. Вводят голосовой сигнал русскоязычного абонента, а затем обнаруживают интенсивности голоса и темпа. После того как получают третью величину измерения обнаруживают частоту основного тона голосового сигнала и получают четвертую величину изменения, указывающую изменение частоты основного тона в направлении оси времени, генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали и удовольствия, соответственно, на основе указанных первой, второй, третьей и четвертой величин изменения. 3 ил.

Электронно-вычислительное устройство // 2523220

Изобретение относится к вычислительной технике. Технический результат заключается в распознавании речи злектронно-вычислительным устройством, используя чтение по губам. Электронно-вычислительное устройство содержит оперативное запоминающее устройство, выход которого соединен с арифметическо-логическим узлом, а также ряды фотоэлементов, реагирующие на красный цвет, соединенные через ключи с оперативным запоминающим устройством. Выход арифметическо-логического узла соединен через ключи с тридцатью узлами сравнения. Выходы тридцати узлов сравнения соединены соответственно с управляющими электродами тридцати ключей. Генератор импульсов соединен с входами тридцати ключей, выходы которых соединены соответственно с входами тридцати ключей. Выходы тридцати ключей соединены с оперативным запоминающим устройством растрового дисплея. 6 ил.

Основанные на языке разметки выбор и использование распознавателей для обработки произнесения // 2525440

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания. Принимают документ на языке разметки и произнесение в вычислительном устройстве. Выбирают один или более распознавателей из числа распознавателей для возврата набора результатов для произнесения на основании языка разметки в документе на языке разметки. Распознают грамматику, используемую в произнесении. Производят синтаксический разбор документа в поисках по меньшей мере одного тэга языка разметки. Принимают набор результатов от одного или более выбранных распознавателей в формате, определенном способом обработки, заданным в документе на языке разметки. Объединяют набор результатов с по меньшей мере одним ранее принятым набором результатов для создания множества наборов результатов. 3 н. и 12 з.п. ф-лы, 5 ил.

Способ коммуникации пользователя с информационной диалоговой системой // 2530267

Изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка. Технический результат - возможность взаимодействия с системой посредством ввода текста и использования естественного языка. Способ коммуникации пользователя с информационной диалоговой системой включает в себя: активацию подсистемы пользовательского ввода, получение подсистемой запроса пользователя и преобразование его в текст, обработку диалоговым модулем полученного текста и ответа на запрос, отображение и/или воспроизведение сформированного ответа, причем по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняется автоматическая повторная активация подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса. 15 з.п. ф-лы, 1 ил.

Способ коммуникации пользователя с информационной диалоговой системой // 2530267