Способ осуществления машинной оценки качества звуковых сигналов

Авторы патента:

Гусев Михаил Николаевич (RU)

Дегтярев Владимир Михайлович (RU)

Жарков Игорь Вениаминович (RU)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2312405:

Гусев Михаил Николаевич (RU)

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи. Сущность способа машинной оценки качества звуковых сигналов состоит в том, что делят его на критические полосы и рассчитывают значения спектральной энергии на критических полосах, определяют значения спектрального подобия активной фазы фрагментов, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений качества для каждой фазы, отличающийся тем, что выделенные фрагменты активной и неактивной фазы обоих сигналов синхронизируют, определяют спектры неактивной фазы для каждого из фрагментов, полученные спектры активной и неактивной фазы фрагментов делят на дополнительные наборы полос, для каждой из которых рассчитывают значения спектральной энергии, сравнивают попарно полученные спектральные энергии активной и неактивной фазы фрагментов, для определения коэффициентов спектрального подобия, результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия по всем наборам полос, который является оценкой качества каждой фазы. Технический результат - обеспечение универсальности и оптимизации процесса оценки качества в зависимости от целей получения оценки. 4 з.п. ф-лы, 13 ил, 6 табл.

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи, телефонии и трактам переговорных устройств, а также при оценке качества звука, воспроизводимого различной аудиоаппаратурой, в том числе прошедшего любые процедуры сжатия/восстановления с помощью различных вокодеров и оценки акустического качества помещений.

Оценка качества звуковых сигналов приобретает все большее значение с ростом распространения и использования мобильной связи, систем синтетической телефонии, различных портативных звукозаписывающих и звуковоспроизводящих устройств. Стремление создать способ, обеспечивающий объективность оценки (т.е. независимость от оценки конкретного лица) и возможность его автоматической реализации, понятно - объективная оценка необходима как для сравнения образцов продукции конкурентов, так и для оптимизации параметров собственной.

Одним из основных показателей систем сжатия, передачи и воспроизведения звуковой информации является качество восстановленного, принятого или воспроизведенного звука.

Количественное измерение качества звука имеет свои специфические особенности, связанные с тем, что, в конечном итоге, приемником звукового сигнала всегда является человек, и он же, является источником большинства звуковых сигналов. Соответственно, качество звуковых сигналов определяется не только техническими характеристиками систем обработки и передачи звука, но и свойствами речевого аппарата и слуха людей, изменяющимися со временем и от человека к человеку.

Различают субъективные и объективные методы измерения качества речи. Субъективные методы - это методы, в которых слух человек является составной частью измерительного комплекса. Соответственно, объективные методы исключают участие слуха человека из процесса измерений.

Наиболее распространенным субъективным методом оценки качества речи (не обязательно речи, хотя, обычно, именно речи) является оценка MOS (mean opinion score - средняя субъективная оценка) - оценка по пяти бальной шкале.

Оценка по шкале MOS определяется путем обработки оценок, даваемых группами аудиторов, нескольким звуковым сигналам, воспроизводимым различными аудиосистемами. Каждый аудитор выносит оценку каждого сигнала. Затем результаты усредняются.

Процесс организации и проведения субъективных экспертиз достаточно сложная, длительная и дорогостоящая процедура, поэтому на протяжении уже многих лет ведутся работы по поиску объективных методов оценки разборчивости, позволяющих получить быстрые и автоматизированные оценки, хорошо совпадающие с субъективными экспертизами.

Известны различные методы оценки, некоторые из них приведены ниже:

AI (Articulation Index) - индекс артикуляции - Идея заключается в том, что весь частотный диапазон речевого сигнала разбивается на 20 полос, в пределах которых определяется отношение сигнал/шум. Ширина полос выбирается так, чтобы вклад каждой полосы в восприятие речи был одинаковым. В каждой полосе рассчитывается отношение сигнал/шум. Индекс артикуляции принимается равным взвешенной сумме значений на полосах.

Индекс артикуляции плох тем, что он хоть и ориентирован на речевой сигнал не учитывает свойств слуха и речеобразования.

SII (Speech Intelligibility Index) - Индекс разборчивости речи - развитие метода AI. Индекс разборчивости речи включен в американский стандарт ANSI S3.5-1997 и предлагает четыре измерительные процедуры на различных группах полос: критические полосы (21 полоса), третьоктавные полосы (18 полос), равные по вкладу критические полосы (17 полос) и октавные полосы (6 полос). В каждой из полос вычисляется отношение сигнал/шум и рассчитывается суммарный коэффициент SII, лежащий в пределах от 0 до 1.

Индекс разборчивости речи учитывает только свойства слуха и не учитывает свойств речеобразования.

STI (Speech Transmission Index) - индекс передачи речи - Речевой сигнал можно приближенно рассматривать как широкополосный сигнал, модулированный низкочастотным сигналом. Частота модуляции определяется скоростью артикуляции. Уменьшение глубины модуляции уподобляет речевой сигнал шумовому и уменьшает его разборчивость. Соответственно и уменьшение разборчивости можно оценить по уменьшению глубины модуляции.

Весь речевой диапазон разбивается на семь октавных полос, на вход испытуемой системы подается октавный шумовой сигнал. Распределение интенсивности тестового сигнала совпадает с распределением интенсивностей речевого сигнала. Частоты модулирующего сигнала изменяются от 0.5 до 12.5 Гц с третьоктавным интервалом (всего 14 частот).

Метод измерений STI зафиксирован в международном стандарте IEC 268-16.

RATSI/STIPA (Rapid Speech Transmission Index) - быстрый индекс передачи речи. Метод STI требует большого количества измерений и расчетов. Был разработан упрощенный метод, предусматривающий измерения только в двух полосах при пяти частотах модуляции, а сокративший - количество измерений и расчетов. Для хорошей разборчивости значения RASTI должны быть не ниже 0.6.

Индекс передачи речи, равно как и быстрый индекс, имитирует процесс речеобразования с помощью шумовой модели, однако такой учет свойств речеобразования и слуха далек от оптимального.

С50 - коэффициент четкости - определяет четкость или ясность звучания и вычисляется, как отношение ближнего и дальнего эха. Метод основан на том, что эхо понижает разборчивость сигнала. Измеряется отношение ближнего и дальнего эха на нескольких частотных полосах. Ближнее эхо (до 33 мс) считается полезным сигналом, а дальнее (больше 33 мс) - мешающим.

Коэффициент четкости учитывает лишь один вид возможных искажений и его целесообразно применять в качестве одной из оценок качества речи.

Известен способ оценки разборчивости речи, получаемой по трактам переговорных устройств средств индивидуальной защиты органов дыхания, путем применения преобразователя речевого сообщения в электрический сигнал и комплекса аппаратуры регистрации и обработки для получения амплитудно-частотной зависимости речевого сообщения, определения формант равной разборчивости, уровня их ощущения, расчета вероятности приема формант, по величине которой оценивают разборчивость речи, отличающийся тем, что преобразователь речевого сообщения в электрический сигнал подключают на вход звукового адаптера персональной ЭВМ с платой оцифровки, осуществляют перевод информации из аналоговой формы в цифровую, проводят обработку цифровой информации и определение требуемых для оценки разборчивости выходных характеристик (заявка №2002133196).

Недостатком данного способа является то, что он не учитывает в полной мере свойства речеобразования. Наличие формант характерно только для гласных и звонких согласных звуков. Кроме того, данный метод применим только для оценки разборчивости речи, как меры качества речевого звукового сигнала, однако он не применим для звуковых сигналов в общем.

Наиболее близким техническим решением к заявляемому является способ осуществления машинной оценки качества передачи аудиосигналов, в особенности речевых сигналов, при котором в одном частотном диапазоне определяют спектры передаваемого сигнала источника и принимаемого сигнала, определяют значение спектрального подобия, которое соответствует качеству передачи, при этом ковариацию спектров сигнала источника и принимаемого сигнала делят на произведение стандартного отклонения обоих спектров (Патент РФ №2232434).

Кроме того, спектральные значения подобия взвешиваются коэффициентом, который зависит от отношения энергий спектров сигнала приема к сигналу источника, что обеспечивает регулирование сигнала помехи, т.к. чем выше энергия принимаемого сигнала, тем значение подобия снижается сильнее.

Предварительно до обработки сигналов из сигнала источника и принимаемого сигнала выделяют активную и неактивную фазы, при этом фрагменты сигнала, энергия которых превосходит предварительно заданный порог, соотносят с активными фазами, а остальные фрагменты квалифицируют как паузы. Паузы и помехи в паузах также отделяются и учитываются в меньшей степени, чем активные фазы сигналов.

Исходя из этого, значение спектрального подобия определяют только для фрагментов принимаемого сигнала и сигнала источника, относящихся к активной фазе, а для неактивных фаз применяется функция качества, зависящая от максимальной и средней энергии на интервале пауз, которая спадает дегрессивно.

Перед преобразованием в частотную область сигналов активной фазы, осуществляют временное маскирование, для чего их подразделяют на временные блоки данных таким образом, что следующие друг за другом блоки данных перекрывались существенной частью до 50%, причем перед временным маскированием компоненты спектров сжимают посредством возведения в степень с показателем меньшим, чем 1.

Полученные спектры источника и принимаемого сигнала делят на критические полосы (по модели Цвикера) и рассчитывает для них коэффициенты подобия. Перед определением значения подобия спектры соответственно подвергают свертке с использованием асимметричной по частоте функции размытия, а перед сверткой расширяют компоненты спектров с использованием возведения в степень с показателем большим, чем 1.

Качество передачи вычисляют посредством взвешенной линейной комбинации из значения подобия активной фазы и значения качества неактивной фазы.

К основным недостаткам прототипа можно отнести:

- практически обработке подвергаются только активные фазы исходного и принятого (тестируемого) сигналов, что снижает объективность оценки;

- данный метод не учитывает свойства речеобразования, т.к. критические полосы по Цвикеру, применяемые авторами изобретения, отражают лишь свойства слуха;

- метод учитывает восприятие неактивной фазы только по уровню громкости, что так же снижает точность оценки.

Задачей предлагаемого изобретения является разработка способа получения объективной оценки качества звукового сигнала, которую можно использовать в указанных областях применения предлагаемого изобретения.

Технический результат достигается за счет того, что в известный способ машинной оценки качества звуковых сигналов, в котором из исходного сигнала и тестируемого сигнала выделяют фрагменты активной и неактивной фаз, определяют спектр активной фазы, рассчитывают значения спектральной энергии на критических полосах и значения подобия, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений для каждой фазы, внесены изменения, а именно:

- выделенные фрагменты активной и неактивной фазы синхронизируют по времени;

- дополнительно определяют спектры фрагментов неактивной фазы;

- полученные спектры фрагментов обеих фаз делят на дополнительные наборы полос, для которых рассчитывают значения спектральной энергии;

- фрагменты сравнивают;

- результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия наборов полос по всем фрагментам.

Затем с учетом полученных результатов производят оценку качества тестируемого звукового сигнала.

Кроме того:

- в качестве исходного сигнала можно использовать как произвольный звуковой сигнал, так и специализированный набор сигналов;

- спектры фрагментов активной и неактивной фазы определяют, используя дискретное косинуспреобразование;

- в качестве дополнительных наборов полос могут использоваться логарифмические, резонаторные и различные известные критические полосы;

- количество и состав наборов полос может варьироваться в различных сочетаниях для определения коэффициента подобия каждой фазы.

Сущность предлагаемого изобретения поясняется с помощью фигур 1-3, фигуры 4-8 поясняют пример реализации, а фигуры 9-13 - возможные способы использования:

Фиг.1 - укрупненный алгоритм оценки качества звукового сигнала;

Фиг.2 - алгоритм сравнения фрагментов сигнала по полосам;

Фиг.3 - общий алгоритм синхронизации исходного и тестируемого сигналов;

Фиг.4 - алгоритм фильтрации выбросов VAD;

Фиг.5 - алгоритм работы синхронизаторного блока (начало);

Фиг.6 - алгоритм работы синхронизаторного блока (продолжение);

Фиг.7 - алгоритм работы синхронизаторного блока (продолжение);

Фиг.8 - алгоритм работы синхронизаторного блока (окончание);

Фиг.9 - пример оценки качества звука, передаваемого через телефонную сеть;

Фиг.10 - пример оценки качества передачи звука по VoIP;

Фиг.11 - пример оценки качества передачи звука в сетях сотовой и спутниковой связи;

Фиг.12 - пример использования оценок качества группой разработчиков систем(ы) обработки звука;

Фиг.13 - пример оценки звукового качества помещений.

Необходимость разработки новых методов и улучшения существующих вызвана желанием повышения близости объективных и субъективных оценок качества, необходимостью учитывать свойства слуха и речеобразования.

Использование в качестве исходного сигнала произвольного или специализированного сигнала зависит от цели оценки (определение разборчивости речи, качество воспроизведения звука, оценки качества речи, получаемой по трактам переговорных устройств, и т.п.) и позволяет повысить ее объективность.

Практически любой звуковой сигнал можно разделить на активную и неактивную фазы. Первая соответствует активным звуковым процессам, вторая - низкоуровневому фоновому шуму. Простейший способ разделения - разделения по уровню энергии сигнала, однако такой подход не обладает высокой точностью. В предлагаемом способе для разделения сигнала на активную и неактивную фазы использован известный алгоритм VAD, зафиксированный в рекомендации G.723 (в качестве элемента одноименного вокодера).

Исходный и тестируемый звуковой сигналы анализируются и разделяются на активную и неактивную фазы (фиг.1). Далее фрагменты активной и неактивной фазы синхронизируются (однотипные фрагменты совмещаются во времени) и анализируются различными блоками по одному алгоритму. Алгоритм синхронизации описан ниже.

Раздельное сравнение совмещенных пар фрагментов активной и неактивной фазы позволяет повысить точность получаемой оценки.

Для каждого фрагмента определяется интегральный спектр с использованием дискретного косинуспреобразования (ДКП), которое для достижения технического результата обладает некоторым преимуществом по сравнению с быстрым преобразованием Фурье (БПФ).

Интегрирование спектра поводится по формуле (1):

где j=0...N/2-1 - индексы значения спектральной энергии,

i - номер шага интегрирования;

N - количество отсчетов сигнала, используемое при расчете спектра;

- получаемое усредненное значение спектра;

- усредненное значение спектра на прошлом шаге;

Sp_i,j - значение спектра, полученное с помощью ДКП.

При расчете интегрального спектра перекрытие окон составляет N/2 отсчетов, на каждое окно накладывается известная оконная функция Хэмминга (Hamming) или Блэкмана-Харриса (Blackmann-Harris).

Для всех выбранных наборов полос определяются уровни спектральной энергии на полосах. Известны группы критических полос, определенные разными авторами, исходя из различных моделей восприятия звука и речеобразования.

Слуховой аппарат человека является нелинейной системой, что приводит к возникновению явления, называемого маскировкой. Маскировка возникает при прослушивании сообщения на фоне помех, или маскирующих звуков.

В результате исследования маскировки гармонических сигналов узкополосным шумом Цвикер определил, что весь спектр слышимых частот можно разделить на частотные группы или полосы, выделяемые слухом человека. До Цвикера аналогичный вывод был сделан Флетчером, назвавшим выделенные частотные группы критическими полосами слуха.

Критические полосы, определенные Флетчером и Цвикером, различаются, т.к. первый определял полосы с помощью маскировки шумом, а второй - из соотношений воспринимаемой громкости.

Сапожков определил критическую полосу, как «полоску частотного диапазона речи, которая воспринимается как единое целое». В своих ранних исследованиях он даже говорил о возможности замены звукового сигнала на полосе эквивалентным тональным сигналом, однако данное предположение не выдержало экспериментальной проверки. Критические полосы, определенные Сапожковым, отличаются от полос, определенных Флетчером и Цвикером, т.к. Сапожков исходил из свойств речевого сигнала.

Покровский также определял критические полосы на основе свойств речевого сигнала. Полосы, определенные Покровским, обеспечивают равную вероятность попадания в них формант.

Значение спектральной энергии на полосах может использоваться для различных целей, одной из которых является оценка качества звукового сигнала. Однако использование критических полос только одного автора (в прототипе, например, используются критические полосы Цвикера), не позволяет получить достаточно объективную оценку, т.к. отражают только один из аспектов либо восприятия, либо речеобразования. В предлагаемом изобретении спектральная энергия может определяться на различных критических полосах, а также на логарифмических и резонаторных полосах, что позволяет учесть больше особенностей слуха и речеобразования.

Учет того, что полосы, определенные Покровским и Сапожковым, лучше подходят для речевых сигналов, а не для звуковых сигналов вообще, позволяет повысить точность оценки, в зависимости от ее цели. В таблице 1 приведены критические полосы по разным авторам.

Использованы следующие обозначения:

Fc - центральная частота полосы;

L - ширина полосы.

Таблица 1
Критические полосы, определенные разными авторами.
№	Цвикер	Покровский	Флетчер	Сапожков
Fc	L	Fc	L	Fc	L	Fc	L
1	51	80	260	320	200	53	200	60
2	150	100	495	150	300	50	300	60
3	250	100	640	140	400	50	500	60
4	350	100	787	155	500	50	800	70
5	450	110	947	165	600	53	1000	80
6	570	120	1125	190	700	54	1500	100
7	700	140	1315	190	800	58	2000	130
8	840	150	1505	190	900	60	3000	200
9	1000	160	1690	180	1000	63	5000	300
10	1170	190	1870	180	1250	71	8000	600
11	1370	210	2050	180	1500	80
12	1600	240	2230	180	1750	87
13	1850	280	2435	230	2000	98
14	2150	320	2725	350	2500	120
15	2500	380	3100	400	3000	141
16	2900	450	3480	360	4000	200
17	3400	550	3855	390	5000	276
18	4000	700	4530	960	6000	370
19	4800	900	6130	2240	7000	480
20	5800	1100	8625	2750	8000	590
21	7000	1300
22	8500	1800
23	10500	2500
24	13500	3500

Дополнительно предлагается использовать логарифмические полосы или полосы равной громкости. Идея проста - громкость пропорциональна 10 логарифмам энергии. Для определения границ логарифмических полос используется запись фонетически представительного текста (известный текст, разработанный на кафедре фонетики СПбГУ), начитанного дикторами разного пола и возраста.

Речевой тракт представляет собой сложную акустическую систему. Акустика речевого тракта нестационарная и нелинейная. При движении артикуляционных органов форма и объем верхнего резонатора изменяются, в результате чего осуществляется речевая функция. Высота голоса определяется числом колебаний голосовых связок в секунду, а также длины связок, силы их натяжения и положения надгортанника. Сила звука определяется силой смыкания голосовых связок и силой выдоха. Тембр изменяется в зависимости от положения гортани и надгортанника.

В силу анатомических особенностей строения речевого аппарата и умения пользоваться резонаторами у одних людей получается усиление или ослабление гармонических составляющих звуков. Основное влияние на фонацию оказывают верхний резонатор и глотка. Также резонаторную функцию, состоящую в усилении тонов голоса и придании ему индивидуального тембра, осуществляют полости носа и околоносовых пазух.

Резонаторные полосы, характерные для различных звуков речи, были определены Сорокиным В.Н. (табл.2). Учет резонаторных полос полезен при определении качества речевых звуковых (особенно речевых) сигналов. Резонаторные полосы могут быть использованы для определения качества воспроизведения отдельных звуков.

Индексы у центральных частот и ширины полос приведены по Сорокину. F_x соответствует Fc, a L_x-L.

Таблица 2
Резонаторные полосы
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
1	«А»	273,5	72,4	574,6	78,1	994,1	48,3
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2404,8	77,7	2711,4	102,5	3796,5	145,6	4735,3	221,8
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
2	«О»	287,6	72,4	497,1	100,9	914,2	47,1
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2316,4	67,9	2635,1	87,6	4030,9	142,3	4728,3	189,5
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
3	«У»	296,8	72,4	408,6	149,2	858,0	41,9
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2042,8	54,2	2761,3	71,2	3612,3	92,4	4434,3	122,7
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
4	«И»	287,7	72,4	393,5	54,9	2272,1	66,1
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
3094,6	77,6	4003,6	83,7	5047,3	117,0	6103,5	133,6
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
5	«Ы»	302,6	72,4	485,7	85,5	1378,4	47,0
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
1847,7	46,3	2574,5	63,3	3732,5	97,7	4421,9	124,8
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
6	«Э»	279,0	72,4	490,9	73,1	1353,0	41,4
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2235,0	60,8	2775,0	78,5	3575,7	109,4	4226,4	141,3
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
7	«С»	325,4	72,4	482,7	72,7	1619,4	45,7
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2861,0	72,7	4029,8	106,3	4406,1	115,9	5290,6	153,9
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
8	«Ш»	335,1	72,4	473,4	97,5	1439,9	53,7
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2101,6	57,1	2528,8	62,8	3159,8	72,9	4516,78	117,3
№	Звук	F_p	L_р	F₁	L₁	F₂	L₂
9	«X»	349,9	72,4	543,8	91,9	1459,7	54,8
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2035,0	53,5	2915,1	78,5	3699,1	93,5	4540,6	120,5
№	Звук	F_p	L_p	F₁	L₁	F₂	L₂
10	«Ф»	274,9	72,4	338,9	83,2	1024,6	37,4
F₃	L₃	F₄	L₄	F₅	L₅	F₆	L₆
2110,2	43,2	2694,5	53,5	3872,9	78,0	4798,0	104,9

Дополнительно могут определяться «коэффициенты важности» полос, исходя из предположения о том, чем меньше интегральная энергия на полосе, тем выше важность полосы для восприятия речи. Соответственно, для оценки качества звуковых сигналов вообще, целесообразно считать полосы равно важными, а при оценке качества речевых сигналов, передаваемых по трактам переговорных устройств, учитывать коэффициенты важности.

Границы полос (начальный и конечный индексы) определяются по следующим формулам:

где nSpecLen - количество точек в спектре (N/2);

SampleRate - частота дискретизации сигнала;

n - номер полосы.

Энергии на полосах определяются как:

где - значения интегрального спектра ( равно , полученному на последнем окне фрагмента).

Алгоритм сравнения по полосам (для одного набора) представлен на фиг.2. Исходная оценка качества полагается равной 100%. Далее она уменьшается пропорционально различию энергий на полосах. Определяются оценки качества по каждому набору полос. Оценка качества по всем наборам полос определяется как среднее значение отдельных оценок по формуле:

где Nk - количество используемых таблиц полос;

k - номер текущей таблицы;

dQ_k - оценка, полученная для k-той таблицы полос;

- интегральная оценка по всем таблицам.

Оценка качества для каждой фазы определяется как среднее, по всем парам фрагментов:

где - получаемое интегральное значение коэффициента потери качества;

- интегральное значение коэффициента качества на предыдущем шаге;

- значение коэффициента качества на паре фрагментов с номером t;

- значение коэффициента качества на первой паре фрагментов;

t - номер пары фрагментов.

Результирующая оценка качества по всему сигналу (dQGlobal) определяется как сумма взвешенных оценок качества активной ((Active)) и неактивной ((Pause)) фаз:

Общий алгоритм синхронизации сигналов представлен на фиг.3. На вход синхронизатора сигнала поступают отрезки сигнала (pDATA), равные по длительности фрейму VAD, и признаки активности VAD на отрезках pDATA. Имеются два входа: для эталонного (или исходного) сигнала и для тестируемого сигнала.

Перед синхронизацией проводится фильтрация выбросов признаков активности VAD, заключающаяся в том, что признак активности на коротких участках (с длительностью менее пороговой) приравнивается к признакам активности окружающего сигнала.

После фильтра признаки состояний и фреймы сигнала поступают на синхронизаторные блоки, совмещающие фрагменты активного сигнала и паузы. Модули используют общие данные: буфер активного эталонного сигнала (EBuffer1), буфер активного тестируемого сигнала (TBuffer1), буфер паузы эталонного сигнала (EBuffer0), буфер паузы тестируемого сигнала (TBuffer0), признак готовности буферов активного сигнала и пауз (dReady[0...1]), также предусмотрен счетчик ошибок синхронизации (dErrorCounter).

На выходе синхронизатора получается пара буферов с активным сигналом или пара буферов с паузами. Оба синхронизаторных блока могут инициировать появление пары синхронизированных буферов.

Синхронизированные буфера в зависимости от признака активности поступают на блок сравнения активных фрагментов или пауз (фиг.1).

В настоящее время продолжается апробирование предлагаемого метода применительно к оценке качества телефонных каналов и IP-телефонии. Ведется поиск оптимальных алгоритмов синхронизации и уточняется зависимость между оценкой качества и слоговой разборчивостью.

Ниже приводится описание реализации способа. Реализация предлагаемого способа оценки качества звуковых сигналов осуществляется на персональном компьютере с использованием программного обеспечения и разработанного авторами изобретения. Метод реализован в виде программы для оценки качества вокодеров и сравнения внешних исходных и тестируемых сигналов.

В качестве внешних сигналов могут использоваться произвольные сигналы, записанные с частотой дискретизации 8 кГц и разрядностью отсчетов 16 бит. Предполагается, что тестируемый сигнал получен из исходного сигнала в результате каких-либо преобразований (например, сжатие/восстановление, передача по каналам связи, фильтрация).

Дополнительно, в качестве исходного внешнего сигнала может использоваться запись фонетически представительного текста, начитанного несколькими дикторами разного пола и возраста.

В качестве внутренних исходных сигналов (сигналов, к которым пользователь программы не имеет доступа) используются сигналы, генерируемые в соответствии с шумовой моделью (описание генератора приведено ниже) и сигналы, генерируемые на основе статистической модели.

Внутренние сигналы подаются на вход реализации системы сжатия/восстановления звуковых данных, реализуемой в виде DLL с оговоренным интерфейсом. Допускается использование DLL, разработанных как авторами предлагаемого метода, так и сторонними разработчиками. Сигнал, прошедший обработку методами, содержащимися в DLL, считается тестируемым и подвергается процедуре оценки качества, описанной выше.

На фиг.4 представлен алгоритм фильтрации выбросов VAD. В качестве исходных данных выступают отрезки сигнала pDATA и признаки активности VAD-dVAD. В табл.3 приведены названия переменных, их назначение и начальные значения. Кроме переменных в алгоритме использованы три константы: порог выправления пауз в активное состояние (dBound[0]=6), порог выправления активного состояния в паузу (dBound[1]=4) и длина линии задержки (dDLSize=max(dBound[])+1).

Используемые значения констант определены экспериментально (для случая оценки качества сигналов, прошедших процедуру сжатия/восстановления) и могут изменяться при реализации для лучшей синхронизации конкретных сигналов.

Таблица 3
Переменные, используемые фильтром выбросов VAD
Переменная	Назначение	Н/з
dVAD	Значение признака активности, поступающее на вход алгоритма	-
pDATA	Массив отсчетов сигнала с длиной, равный фрейму VAD	-
dState	Признак активности участка (предшествующее значение признака активности)	-1
dSLen	Количество последовательных фреймов с одинаковым признаком активности	0
dNDLFrames	Общее количество фреймов, поступивших на вход алгоритма	0
DelayLine[]	Линия задержки. Сохраняет признаки активности и массивы отсчетов	-

Алгоритм проверяет признак активности текущего блока сигнала. Если признак активности совпадает с текущим принимаемым состоянием, то пришедший фрейм просто добавляется в линию задержки, а первый элемент линии задержки выдается на вход синхронизаторного блока.

Если признак активности не совпадает с текущим принимаемым состоянием, то осуществляется проверка на приход первого фрейма сигнала. Первый фрейм просто помещается в линию задержки, а его признак активности принимается за текущее состояние.

Если происходит смена активности принимаемого сигнала в процессе фильтрации, то проверяется количество фреймов сигнала, принятых в предыдущем состоянии. Если количество фреймов меньше установленного порога, то производится смена их признака активности на противоположный, если нет, то просто изменяется текущее состояние и сбрасывается счетчик фреймов, принятых в текущем состоянии. После всех операций по смене состояния фрейм помещается в линию задержки.

Работа алгоритма завершается по получению признака окончания сигнала. При этом на вход синхронизаторного блока отдается весь накопленный сигнал, если, конечно, таковой имеется, и только потом - признак окончания сигнала.

Для синхронизации сигналов используется пара синхронизаторных блоков, работающих с несколькими общими переменными, описанными выше. Алгоритм работы синхронизаторного блока представлен на фигурах 5-8.

Синхронизаторный блок 0 обрабатывает эталонный сигнал (фиг.5), а блок 1 - тестируемый. Алгоритмы блоков идентичны, блоки используют перекрестные ссылки на буфера, т.е. в блоке 0 XBuffer0 - это буфер пауз эталонного сигнала, a - тестируемого, и наоборот - в блоке 1 XBuffer0 - буфер пауз тестируемого сигнала, a - эталонного.

Аналогично в блоке 0 XBuffer1 - это буфер активного эталонного сигнала, a - тестируемого, и наоборот - в блоке 1 XBuffer1 - буфер активного тестируемого сигнала, а - эталонного.

По получению признака конца сигнала алгоритм завершает свою работу. Ветка останова представлена на фиг.8.

В зависимости от признака активности VAD сигнал помещается либо в буфер пауз, либо в буфер активного сигнала. Если размер буфера превышает пороговое значение, то производится выдача синхронизированных буферов на модуль сравнения. Ветки, выдающие синхронизацию по размеру буфера, представлены на фиг.7.

После помещения сигнала в буфер проверяется текущее состояние активности сигнала. Если оно прежнее, то производится переход к началу и ожидаются новые данные. При изменении состояния проверяется, не была ли это первая порция данных? Если «да», то принимается ее состояние активности и осуществляется переход на начало.

Если нет, то увеличивается признак готовности сигнала в данном состоянии, после чего проверяется не готовы ли оба сигнала, т.е. участки активного сигнала или паузу синхронизированы. Если есть синхронизированные фрагменты сигнала, переходим к ветке, представленной на фиг.6. Если нет, то переход на начало алгоритма.

По текущему состоянию определяется, была ли найдена синхронизация для пауз или для активного сигнала. Проверяем результат синхронизации на ошибку путем сравнения с нулем размеров буферов (своего и буфера из параллельного блока) сигнала. Ели хоть один из них равен нулю, то произошла ошибка синхронизации.

Если все в порядке синхронизированные буфера выдаются на вход модуля сравнения. Если нет - то счетчик ошибок увеличивается, буфера сбрасываются, изменяется состояние активности и происходит возврат к ожиданию новой порции данных.

Прежде чем отдать буфера по превышению размера сегмента, производим проверку размера параллельного буфера (фиг.7). Если буфер параллельного блока пуст - буфера сбрасываются и увеличивается счетчик ошибок синхронизации. Если данные присутствуют в обоих буферах, модулю сравнения сигналов отдаются синхронизированные фрагменты.

Перед окончанием работы проверяется: есть ли данные в буферах пауз и буферах активного сигнала. Если есть, то отдаем соответствующие синхронизированные пары (или пару) сигналов модулю сравнения. После чего, выдаем модулю сравнения признак окончания сигнала.

Далее рассчитываются интегральные спектры выделенных и совмещенных фрагментов в соответствии с описанием метода, приведенным выше. Для расчета спектров используется 1024-точечное дискретное косинуспреобразование, обеспечивающее достаточную для 8 кГц сигнала точность определения границ полос.

В табл.4 представлены коэффициенты важности отдельных полос, определенные в соответствии с описанием метода. Коэффициенты определены для сигналов, записанных с частотой дискретизации 8 кГц.

Таблица 4
Коэффициенты важности критических полос
№	Цвикер	Покровский	Флетчер	Сапожков
Vc_log	Vc_line	Vc_log	Vc_line	Vc_log	Vc_line	Vc_log	Vc_line
1	.112257	.022757	.023221	.000234	.060620	.000554	.119224	.002201
2	.071777	.001918	.052324	.001002	.062399	.000774	.122034	.002950
3	.063108	.000816	.059593	.002275	.056358	.001181	.150998	.008126
4	.066354	.001426	.057859	.004045	.058028	.001615	.136877	.027655
5	.063906	.001986	.061305	.009510	.061681	.003002	.141754	.081240
6	.063221	.003309	.059533	.019082	.064525	.004624	.124286	.165172
7	.056019	.005001	.061430	.029982	.067569	.006987	.123389	.462036
8	.057442	.009524	.064073	.032110	.072189	.012508	.073987	.249604
9	.061323	.023545	.068123	.037674	.068211	.020201
10	.055594	.037177	.074750	.066339	.068900	.045774
11	.052207	.048333	.082703	.121272	.062134	.041917
12	.046928	.043929	.086423	.153918	.059783	.055413
13	.043235	.066483	.067701	.114197	.063507	.122423
14	.043545	.132619	.042399	.063481	.049434	.112761
15	.037087	.111828	.035929	.044686	.041380	.072089
16	.029355	.072354	.045791	.100261	.081286	.497994
17	.026423	.087377	.055098	.199775
18	.049202	.329361

Также в соответствии с описанием метода определены логарифмические полосы и их коэффициенты важности, справедливые для 8 кГц сигнала (табл.5).

Таблица 5
Логарифмические полосы и их коэффициенты важности полос
№	Fc	L	Vc_line	№	Fc	L	Vc_line	№	Fc	L	Vc_line
1	74	149	.005170	8	1035	180	.013173	15	2551	242	.090052
2	207	117	.000426	9	1219	188	.022271	16	2797	250	.081422
3	324	117	.000556	10	1410	195	.029766	17	3035	227	.069182
4	445	125	.000925	11	1609	203	.027939	18	3273	250	.079362
5	574	133	.001577	12	1816	211	.042986	19	3539	281	.142375
6	715	148	.002717	13	2047	250	.079971	20	3836	313	.204682
7	867	156	.005893	14	2301	258	.099413

В соответствии с описанием метода рассчитываются интегральные спектры фрагментов, энергии на полосах, оценки качества по каждой паре фрагментов и интегральная, результирующая оценка качества. Данная реализация задействует все наборы полос.

Затем для удобства сравнения с субъективными оценками MOS объективная оценка в процентах пересчитывается в баллы путем деления на 20.

Генератор сигнала, соответствующий шумовой модели речеобразования, работает следующим образом: генерируется белый шум. Из него вырезаются критические полосы, определенные Покровским или Сапожковым (табл.1). Каждая полоса модулируется частотами, перечисленными ниже. Частоты модуляции применяются последовательно на количестве отсчетов, указанных для каждой частоты (число в скобках). После того, как перебраны все частоты модуляции, делается пауза в 8000 отсчетов (1 секунда) и осуществляется переход к следующей полосе.

Используются следующие частоты модуляции: 0.63 (40000), 0.84 (40000), 1.05 (40000), 1.26 (40000), 1.68 (40000), 2.10 (20000), 2.52 (20000), 3.36 (20000), 4.20 (20000), 5.04 (20000), 6.72 (10000), 8.40 (10000), 10.08 (10000), 13.44 (10000).

Статистическая модель генерирует звуковой сигнал исходя из знаний о звуковом составе русского языка, частотности звуков, статистической информации о физических характеристиках звуков, статистических данных о составе населения, образцов голоса нескольких дикторов. Модель генерирует исходный звуковой сигнал, как последовательность образцов голосов диктора, берущихся в случайном порядке, в количестве, пропорциональном их частотности.

В результате апробации предлагаемого способа были получены оценки качества нескольких стандартных вокодеров. В табл.6 приводится оценка качества нескольких стандартных вокодеров, полученные на различных тестовых сигналах, предлагаемым способом с использованием описанной реализации. Для сравнения в таблице приведены оценки MOS.

Таблица 6
Оценка качества звука вокодеров
Кодек	MOS	Шумовая модель	Статистическая модель	ФПТ
Кодек	MOS	Минимальный	Сокращенный	Полный
-	Vc	-	Fc	-	Vc	-	Vc	-	Vc
A-Law	4,10	4,79	4,73	4,78	4,78	4,78	4,78	4,79	4,80	4,80	4,84
Mu-Law	4,10	4,79	4,84	4,77	4,77	4,77	4,78	4,78	4,79	4,79	4,82
G.723.6.3	3,90	4,25	4,48	4,21	4,29	4,22	4,33	4,15	4,04	4,08	3,95
GSM.6.10	3,70	3,20	1,99	3,01	1,65	3,04	1,78	4,22	3,66	4,01	3,21
G.723.5.3	3,65	4,23	4,44	4,18	4,27	4,19	4,32	4,14	4,04	4,06	3,93

В графе со знаком «-» приведены оценки при принятии полос равновероятными, а в графе «Vc» - оценки, полученные с учетом коэффициентов важности.

Предлагаемый способ оценки звуковых сигналов имеет ряд преимуществ перед известными методами измерения качества, а именно:

- обладает универсальностью, т.к. позволяет судить о качестве сигналов, имеющих различное происхождение, прошедших различные процедуры обработки;

- процесс оценки качества может быть оптимизирован в зависимости от целей получения оценки:

- по скорости (например, возможно быстро получить грубую оценку);

- по типу сигнала (использование различных полос для речевых сигналов и звуковых сигналов вообще);

- полученная оценка хорошо коррелируют с оценками MOS;

- оценки качества, полученные для речевых сигналов, могут быть пересчитаны в значения различных видов разборчивости.

Ниже приводится краткое описание нескольких возможных вариантов применения предлагаемого метода для оценки качества звука.

На фиг.9 представлена схема применения предлагаемого метода для оценки качества передачи звука через телефонную сеть общего пользования. Данная схема справедлива как для местной, так и для междугородней/международной связи.

Сервер оценки качества звука генерирует исходный сигнал (или выбирает среди заранее приготовленных) и передает его одному из абонентов, участвующих в тестировании.

Абонент, получивший сигнал, устанавливает обычное телефонное соединение со вторым абонентом, и воспроизводит исходный сигнал. Второй абонент записывает принимаемый звуковой сигнал, и передает его на сервер оценки качества звука.

Сервер оценки качества звука производит сравнение исходного и тестируемого сигналов в соответствии с предлагаемым методом и выдает оценку качества звука, прошедшего через телефонную сеть. Полученная оценка может быть использована для повышения качества обслуживания абонентов, принятия решения о необходимости замены или настройки оборудования (как на стороне абонента, так и на стороне станции), в рекламных целях и др.

Аналогичным образом происходит оценка качества звука по IP-сети, представленная на фиг.10. Отличие от предыдущего варианта применения заключается в способе передачи исходного и тестируемого звукового сигналов от сервера оценки качества звука к абонентам, и в способе передачи данным между абонентами.

Кроме того, полученные оценки качества могут быть использованы для выбора кодеков, используемых при VoIP-связи и для выбора операторов, предоставляющих услуги IP-телефонии.

Аналогичным образом предлагаемый метод может быть использован для оценки сотовой и спутниковой связи (см. фиг.11). Полученные оценки могут использоваться абонентами для выбора операторов связи и моделей телефонов, а операторами - для оптимизации размещения базовых станций.

На фиг.12 представлен процесс использования предлагаемого метода оценки качества звука разработчиками и тестировщиками систем и алгоритмов (методов) сжатия звуковых данных. Каждая версия кодека (или кодек с набором параметров) требует оценки и сравнения с аналогами. Каждый разработчик может обратиться к базе звуковых образцов, сжать и восстановить сигнал и получить объективную оценку качества работы кодека.

Такая система позволит управлять процессом разработки кодеков и оптимизацией их параметров, кроме того, конечный потребитель сможет получить оптимальный алгоритм, а не просто работающий.

На фиг.13 представлен процесс оценки звукового качества помещений. В данном случае исходным является сигнал, получаемый с микрофона, расположенного напротив диктора, а тестовыми сигналы с микрофонов, расположенных в разных частях помещения, в местах расположения слушателей и звуковоспроизводящего оборудования.

Полученные оценки могут использоваться для оптимизации расположения звуковоспроизводящего оборудования, мебели и зрительских мест.

После апробации предлагаемый способ в течение 2005-06 г.г. будет широко использоваться в различных областях техники.

1. Способ осуществления машинной оценки качества звуковых сигналов, в котором из фрагментов исходного и тестируемого сигнала выделяют активную и неактивную фазы, определяют спектр активной фазы, делят его на критические полосы и рассчитывают значения спектральной энергии на критических полосах, определяют значения спектрального подобия активной фазы фрагментов, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений качества для каждой фазы, отличающийся тем, что выделенные фрагменты активной и неактивной фазы обоих сигналов синхронизируют, определяют спектры неактивной фазы для каждого из фрагментов, полученные спектры активной и неактивной фазы фрагментов делят на наборы полос, включающие дополнительные наборы критических, а также логарифмических и резонаторных полос, для каждой из которых рассчитывают значения спектральной энергии, сравнивают попарно полученные спектральные энергии активной и неактивной фазы фрагментов, для определения коэффициентов спектрального подобия, результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия по всем наборам полос, который является оценкой качества каждой фазы.

2. Способ по п.1, отличающийся тем, что в качестве исходного сигнала можно использовать как произвольный звуковой сигнал, так и специализированный набор сигналов.

3. Способ по п.1, отличающийся тем, что спектры фрагментов активной и неактивной фазы определяют, используя дискретное косинус-преобразование.

4. Способ по п.1 отличающийся тем, что значение спектральной энергии активной и неактивной фазы каждого фрагмента рассчитывают с учетом коэффициентов важности каждой полосы, включенной в набор.

5. Способ по любому из п.1 или 4, отличающийся тем, что в качестве наборов полос используют различное сочетание логарифмических, резонаторных и известных критических полос.

Изобретение относится к способу и устройству в области высокочастотного восстановления, применяемого в системах кодирования аудиосигналов. .

Способ дикторонезависимого распознавания звуков речи // 2234746

Изобретение относится к распознаванию речи. .

Способ осуществления машинной оценки качества аудиосигналов // 2232434

Изобретение относится к машинной оценке качества передачи аудиосигналов. .

Способ и устройство кодирования информации, способ и устройство для декодирования информации, носитель для записи информации // 2221329

Изобретение относится к области радиотехники, в частности к кодированию информации для расширения формата кодируемых сигналов. .

Способ кодирования речи (варианты), кодирующее и декодирующее устройство // 2214048

Изобретение относится к кодированию и декодированию речи. .

Способ последующей обработки с высокой разрешающей способностью для речевого декодера // 2199157

Изобретение относится к речевым декодерам, применяемым в радиоприемниках систем радиосвязи с подвижными объектами. .

Способ сжатия изолированных слов // 2180974

Изобретение относится к цифровой обработке речи. .

Способ выделения основного тона // 2174714

Изобретение относится к технике речевого анализа. .

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии.

Способ обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2148277

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ) , и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии.

Способ и устройство для быстрого вычисления вероятностей наблюдения при распознавании речи // 2302666

Изобретение относится к распознаванию речи и, более конкретно, к способу и устройству для вычисления акустических вероятностей при распознавании речи. .

Способ распознавания слов в слитной речи // 2297676

Изобретение относится к автоматике и вычислительной технике. .

Способ распознавания слов речи // 2296376

Изобретение относится к области анализа и распознавания речевых сигналов. .

Способ распознавания музыкальных произведений и устройство для его осуществления // 2295163

Изобретение относится к области информационных технологий - обработки аудио сигналов, в частности к способу распознавания музыкальных произведений и устройству для его осуществления.

Способ дикторонезависимого распознавания ключевых слов в слитной речи // 2294024

Изобретение относится к системам обработки информации и управления, а именно к способам построения систем распознавания речи. .

Устройство и способы для детектирования эмоций // 2294023

Изобретение относится к устройству и способам для непрерывного контроля эмоциональных состояний. .

Способ и устройство для обеспечения иерархического индекса структуры данных модели языка // 2294011

Изобретение относится к статистическим моделям языка, используемых в системах распознавания речи. .

Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления // 2291499

Изобретение относится к системам передачи речевой активности в распределенной системе распознавания голоса. .

Способ обнаружения эмоций, способ генерирования чувствительности и система и машиночитаемый носитель для их осуществления // 2287856

Устройство измерения разборчивости речи // 2284586

Изобретение относится к измерению разборчивости речи и предназначено для оценки защиты объектов от несанкционированной утечки акустической речевой информации в реальных условиях.

Способ и система автоматической проверки присутствия лица живого человека в биометрических системах безопасности // 2316051

Изобретение относится к системам безопасности и контроля