Способ осуществления машинной оценки качества звуковых сигналов

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи. Сущность способа машинной оценки качества звуковых сигналов состоит в том, что делят его на критические полосы и рассчитывают значения спектральной энергии на критических полосах, определяют значения спектрального подобия активной фазы фрагментов, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений качества для каждой фазы, отличающийся тем, что выделенные фрагменты активной и неактивной фазы обоих сигналов синхронизируют, определяют спектры неактивной фазы для каждого из фрагментов, полученные спектры активной и неактивной фазы фрагментов делят на дополнительные наборы полос, для каждой из которых рассчитывают значения спектральной энергии, сравнивают попарно полученные спектральные энергии активной и неактивной фазы фрагментов, для определения коэффициентов спектрального подобия, результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия по всем наборам полос, который является оценкой качества каждой фазы. Технический результат - обеспечение универсальности и оптимизации процесса оценки качества в зависимости от целей получения оценки. 4 з.п. ф-лы, 13 ил, 6 табл.

 

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи, телефонии и трактам переговорных устройств, а также при оценке качества звука, воспроизводимого различной аудиоаппаратурой, в том числе прошедшего любые процедуры сжатия/восстановления с помощью различных вокодеров и оценки акустического качества помещений.

Оценка качества звуковых сигналов приобретает все большее значение с ростом распространения и использования мобильной связи, систем синтетической телефонии, различных портативных звукозаписывающих и звуковоспроизводящих устройств. Стремление создать способ, обеспечивающий объективность оценки (т.е. независимость от оценки конкретного лица) и возможность его автоматической реализации, понятно - объективная оценка необходима как для сравнения образцов продукции конкурентов, так и для оптимизации параметров собственной.

Одним из основных показателей систем сжатия, передачи и воспроизведения звуковой информации является качество восстановленного, принятого или воспроизведенного звука.

Количественное измерение качества звука имеет свои специфические особенности, связанные с тем, что, в конечном итоге, приемником звукового сигнала всегда является человек, и он же, является источником большинства звуковых сигналов. Соответственно, качество звуковых сигналов определяется не только техническими характеристиками систем обработки и передачи звука, но и свойствами речевого аппарата и слуха людей, изменяющимися со временем и от человека к человеку.

Различают субъективные и объективные методы измерения качества речи. Субъективные методы - это методы, в которых слух человек является составной частью измерительного комплекса. Соответственно, объективные методы исключают участие слуха человека из процесса измерений.

Наиболее распространенным субъективным методом оценки качества речи (не обязательно речи, хотя, обычно, именно речи) является оценка MOS (mean opinion score - средняя субъективная оценка) - оценка по пяти бальной шкале.

Оценка по шкале MOS определяется путем обработки оценок, даваемых группами аудиторов, нескольким звуковым сигналам, воспроизводимым различными аудиосистемами. Каждый аудитор выносит оценку каждого сигнала. Затем результаты усредняются.

Процесс организации и проведения субъективных экспертиз достаточно сложная, длительная и дорогостоящая процедура, поэтому на протяжении уже многих лет ведутся работы по поиску объективных методов оценки разборчивости, позволяющих получить быстрые и автоматизированные оценки, хорошо совпадающие с субъективными экспертизами.

Известны различные методы оценки, некоторые из них приведены ниже:

AI (Articulation Index) - индекс артикуляции - Идея заключается в том, что весь частотный диапазон речевого сигнала разбивается на 20 полос, в пределах которых определяется отношение сигнал/шум. Ширина полос выбирается так, чтобы вклад каждой полосы в восприятие речи был одинаковым. В каждой полосе рассчитывается отношение сигнал/шум. Индекс артикуляции принимается равным взвешенной сумме значений на полосах.

Индекс артикуляции плох тем, что он хоть и ориентирован на речевой сигнал не учитывает свойств слуха и речеобразования.

SII (Speech Intelligibility Index) - Индекс разборчивости речи - развитие метода AI. Индекс разборчивости речи включен в американский стандарт ANSI S3.5-1997 и предлагает четыре измерительные процедуры на различных группах полос: критические полосы (21 полоса), третьоктавные полосы (18 полос), равные по вкладу критические полосы (17 полос) и октавные полосы (6 полос). В каждой из полос вычисляется отношение сигнал/шум и рассчитывается суммарный коэффициент SII, лежащий в пределах от 0 до 1.

Индекс разборчивости речи учитывает только свойства слуха и не учитывает свойств речеобразования.

STI (Speech Transmission Index) - индекс передачи речи - Речевой сигнал можно приближенно рассматривать как широкополосный сигнал, модулированный низкочастотным сигналом. Частота модуляции определяется скоростью артикуляции. Уменьшение глубины модуляции уподобляет речевой сигнал шумовому и уменьшает его разборчивость. Соответственно и уменьшение разборчивости можно оценить по уменьшению глубины модуляции.

Весь речевой диапазон разбивается на семь октавных полос, на вход испытуемой системы подается октавный шумовой сигнал. Распределение интенсивности тестового сигнала совпадает с распределением интенсивностей речевого сигнала. Частоты модулирующего сигнала изменяются от 0.5 до 12.5 Гц с третьоктавным интервалом (всего 14 частот).

Метод измерений STI зафиксирован в международном стандарте IEC 268-16.

RATSI/STIPA (Rapid Speech Transmission Index) - быстрый индекс передачи речи. Метод STI требует большого количества измерений и расчетов. Был разработан упрощенный метод, предусматривающий измерения только в двух полосах при пяти частотах модуляции, а сокративший - количество измерений и расчетов. Для хорошей разборчивости значения RASTI должны быть не ниже 0.6.

Индекс передачи речи, равно как и быстрый индекс, имитирует процесс речеобразования с помощью шумовой модели, однако такой учет свойств речеобразования и слуха далек от оптимального.

С50 - коэффициент четкости - определяет четкость или ясность звучания и вычисляется, как отношение ближнего и дальнего эха. Метод основан на том, что эхо понижает разборчивость сигнала. Измеряется отношение ближнего и дальнего эха на нескольких частотных полосах. Ближнее эхо (до 33 мс) считается полезным сигналом, а дальнее (больше 33 мс) - мешающим.

Коэффициент четкости учитывает лишь один вид возможных искажений и его целесообразно применять в качестве одной из оценок качества речи.

Известен способ оценки разборчивости речи, получаемой по трактам переговорных устройств средств индивидуальной защиты органов дыхания, путем применения преобразователя речевого сообщения в электрический сигнал и комплекса аппаратуры регистрации и обработки для получения амплитудно-частотной зависимости речевого сообщения, определения формант равной разборчивости, уровня их ощущения, расчета вероятности приема формант, по величине которой оценивают разборчивость речи, отличающийся тем, что преобразователь речевого сообщения в электрический сигнал подключают на вход звукового адаптера персональной ЭВМ с платой оцифровки, осуществляют перевод информации из аналоговой формы в цифровую, проводят обработку цифровой информации и определение требуемых для оценки разборчивости выходных характеристик (заявка №2002133196).

Недостатком данного способа является то, что он не учитывает в полной мере свойства речеобразования. Наличие формант характерно только для гласных и звонких согласных звуков. Кроме того, данный метод применим только для оценки разборчивости речи, как меры качества речевого звукового сигнала, однако он не применим для звуковых сигналов в общем.

Наиболее близким техническим решением к заявляемому является способ осуществления машинной оценки качества передачи аудиосигналов, в особенности речевых сигналов, при котором в одном частотном диапазоне определяют спектры передаваемого сигнала источника и принимаемого сигнала, определяют значение спектрального подобия, которое соответствует качеству передачи, при этом ковариацию спектров сигнала источника и принимаемого сигнала делят на произведение стандартного отклонения обоих спектров (Патент РФ №2232434).

Кроме того, спектральные значения подобия взвешиваются коэффициентом, который зависит от отношения энергий спектров сигнала приема к сигналу источника, что обеспечивает регулирование сигнала помехи, т.к. чем выше энергия принимаемого сигнала, тем значение подобия снижается сильнее.

Предварительно до обработки сигналов из сигнала источника и принимаемого сигнала выделяют активную и неактивную фазы, при этом фрагменты сигнала, энергия которых превосходит предварительно заданный порог, соотносят с активными фазами, а остальные фрагменты квалифицируют как паузы. Паузы и помехи в паузах также отделяются и учитываются в меньшей степени, чем активные фазы сигналов.

Исходя из этого, значение спектрального подобия определяют только для фрагментов принимаемого сигнала и сигнала источника, относящихся к активной фазе, а для неактивных фаз применяется функция качества, зависящая от максимальной и средней энергии на интервале пауз, которая спадает дегрессивно.

Перед преобразованием в частотную область сигналов активной фазы, осуществляют временное маскирование, для чего их подразделяют на временные блоки данных таким образом, что следующие друг за другом блоки данных перекрывались существенной частью до 50%, причем перед временным маскированием компоненты спектров сжимают посредством возведения в степень с показателем меньшим, чем 1.

Полученные спектры источника и принимаемого сигнала делят на критические полосы (по модели Цвикера) и рассчитывает для них коэффициенты подобия. Перед определением значения подобия спектры соответственно подвергают свертке с использованием асимметричной по частоте функции размытия, а перед сверткой расширяют компоненты спектров с использованием возведения в степень с показателем большим, чем 1.

Качество передачи вычисляют посредством взвешенной линейной комбинации из значения подобия активной фазы и значения качества неактивной фазы.

К основным недостаткам прототипа можно отнести:

- практически обработке подвергаются только активные фазы исходного и принятого (тестируемого) сигналов, что снижает объективность оценки;

- данный метод не учитывает свойства речеобразования, т.к. критические полосы по Цвикеру, применяемые авторами изобретения, отражают лишь свойства слуха;

- метод учитывает восприятие неактивной фазы только по уровню громкости, что так же снижает точность оценки.

Задачей предлагаемого изобретения является разработка способа получения объективной оценки качества звукового сигнала, которую можно использовать в указанных областях применения предлагаемого изобретения.

Технический результат достигается за счет того, что в известный способ машинной оценки качества звуковых сигналов, в котором из исходного сигнала и тестируемого сигнала выделяют фрагменты активной и неактивной фаз, определяют спектр активной фазы, рассчитывают значения спектральной энергии на критических полосах и значения подобия, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений для каждой фазы, внесены изменения, а именно:

- выделенные фрагменты активной и неактивной фазы синхронизируют по времени;

- дополнительно определяют спектры фрагментов неактивной фазы;

- полученные спектры фрагментов обеих фаз делят на дополнительные наборы полос, для которых рассчитывают значения спектральной энергии;

- фрагменты сравнивают;

- результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия наборов полос по всем фрагментам.

Затем с учетом полученных результатов производят оценку качества тестируемого звукового сигнала.

Кроме того:

- в качестве исходного сигнала можно использовать как произвольный звуковой сигнал, так и специализированный набор сигналов;

- спектры фрагментов активной и неактивной фазы определяют, используя дискретное косинуспреобразование;

- в качестве дополнительных наборов полос могут использоваться логарифмические, резонаторные и различные известные критические полосы;

- количество и состав наборов полос может варьироваться в различных сочетаниях для определения коэффициента подобия каждой фазы.

Сущность предлагаемого изобретения поясняется с помощью фигур 1-3, фигуры 4-8 поясняют пример реализации, а фигуры 9-13 - возможные способы использования:

Фиг.1 - укрупненный алгоритм оценки качества звукового сигнала;

Фиг.2 - алгоритм сравнения фрагментов сигнала по полосам;

Фиг.3 - общий алгоритм синхронизации исходного и тестируемого сигналов;

Фиг.4 - алгоритм фильтрации выбросов VAD;

Фиг.5 - алгоритм работы синхронизаторного блока (начало);

Фиг.6 - алгоритм работы синхронизаторного блока (продолжение);

Фиг.7 - алгоритм работы синхронизаторного блока (продолжение);

Фиг.8 - алгоритм работы синхронизаторного блока (окончание);

Фиг.9 - пример оценки качества звука, передаваемого через телефонную сеть;

Фиг.10 - пример оценки качества передачи звука по VoIP;

Фиг.11 - пример оценки качества передачи звука в сетях сотовой и спутниковой связи;

Фиг.12 - пример использования оценок качества группой разработчиков систем(ы) обработки звука;

Фиг.13 - пример оценки звукового качества помещений.

Необходимость разработки новых методов и улучшения существующих вызвана желанием повышения близости объективных и субъективных оценок качества, необходимостью учитывать свойства слуха и речеобразования.

Использование в качестве исходного сигнала произвольного или специализированного сигнала зависит от цели оценки (определение разборчивости речи, качество воспроизведения звука, оценки качества речи, получаемой по трактам переговорных устройств, и т.п.) и позволяет повысить ее объективность.

Практически любой звуковой сигнал можно разделить на активную и неактивную фазы. Первая соответствует активным звуковым процессам, вторая - низкоуровневому фоновому шуму. Простейший способ разделения - разделения по уровню энергии сигнала, однако такой подход не обладает высокой точностью. В предлагаемом способе для разделения сигнала на активную и неактивную фазы использован известный алгоритм VAD, зафиксированный в рекомендации G.723 (в качестве элемента одноименного вокодера).

Исходный и тестируемый звуковой сигналы анализируются и разделяются на активную и неактивную фазы (фиг.1). Далее фрагменты активной и неактивной фазы синхронизируются (однотипные фрагменты совмещаются во времени) и анализируются различными блоками по одному алгоритму. Алгоритм синхронизации описан ниже.

Раздельное сравнение совмещенных пар фрагментов активной и неактивной фазы позволяет повысить точность получаемой оценки.

Для каждого фрагмента определяется интегральный спектр с использованием дискретного косинуспреобразования (ДКП), которое для достижения технического результата обладает некоторым преимуществом по сравнению с быстрым преобразованием Фурье (БПФ).

Интегрирование спектра поводится по формуле (1):

где j=0...N/2-1 - индексы значения спектральной энергии,

i - номер шага интегрирования;

N - количество отсчетов сигнала, используемое при расчете спектра;

- получаемое усредненное значение спектра;

- усредненное значение спектра на прошлом шаге;

Spi,j - значение спектра, полученное с помощью ДКП.

При расчете интегрального спектра перекрытие окон составляет N/2 отсчетов, на каждое окно накладывается известная оконная функция Хэмминга (Hamming) или Блэкмана-Харриса (Blackmann-Harris).

Для всех выбранных наборов полос определяются уровни спектральной энергии на полосах. Известны группы критических полос, определенные разными авторами, исходя из различных моделей восприятия звука и речеобразования.

Слуховой аппарат человека является нелинейной системой, что приводит к возникновению явления, называемого маскировкой. Маскировка возникает при прослушивании сообщения на фоне помех, или маскирующих звуков.

В результате исследования маскировки гармонических сигналов узкополосным шумом Цвикер определил, что весь спектр слышимых частот можно разделить на частотные группы или полосы, выделяемые слухом человека. До Цвикера аналогичный вывод был сделан Флетчером, назвавшим выделенные частотные группы критическими полосами слуха.

Критические полосы, определенные Флетчером и Цвикером, различаются, т.к. первый определял полосы с помощью маскировки шумом, а второй - из соотношений воспринимаемой громкости.

Сапожков определил критическую полосу, как «полоску частотного диапазона речи, которая воспринимается как единое целое». В своих ранних исследованиях он даже говорил о возможности замены звукового сигнала на полосе эквивалентным тональным сигналом, однако данное предположение не выдержало экспериментальной проверки. Критические полосы, определенные Сапожковым, отличаются от полос, определенных Флетчером и Цвикером, т.к. Сапожков исходил из свойств речевого сигнала.

Покровский также определял критические полосы на основе свойств речевого сигнала. Полосы, определенные Покровским, обеспечивают равную вероятность попадания в них формант.

Значение спектральной энергии на полосах может использоваться для различных целей, одной из которых является оценка качества звукового сигнала. Однако использование критических полос только одного автора (в прототипе, например, используются критические полосы Цвикера), не позволяет получить достаточно объективную оценку, т.к. отражают только один из аспектов либо восприятия, либо речеобразования. В предлагаемом изобретении спектральная энергия может определяться на различных критических полосах, а также на логарифмических и резонаторных полосах, что позволяет учесть больше особенностей слуха и речеобразования.

Учет того, что полосы, определенные Покровским и Сапожковым, лучше подходят для речевых сигналов, а не для звуковых сигналов вообще, позволяет повысить точность оценки, в зависимости от ее цели. В таблице 1 приведены критические полосы по разным авторам.

Использованы следующие обозначения:

Fc - центральная частота полосы;

L - ширина полосы.

Таблица 1
Критические полосы, определенные разными авторами.
ЦвикерПокровскийФлетчерСапожков
FcLFcLFcLFcL
151802603202005320060
21501004951503005030060
32501006401404005050060
43501007871555005080070
545011094716560053100080
65701201125190700541500100
77001401315190800582000130
88401501505190900603000200
9100016016901801000635000300
10117019018701801250718000600
1113702102050180150080
1216002402230180175087
1318502802435230200098
14215032027253502500120
15250038031004003000141
16290045034803604000200
17340055038553905000276
18400070045309606000370
194800900613022407000480
2058001100862527508000590
2170001300
2285001800
23105002500
24135003500

Дополнительно предлагается использовать логарифмические полосы или полосы равной громкости. Идея проста - громкость пропорциональна 10 логарифмам энергии. Для определения границ логарифмических полос используется запись фонетически представительного текста (известный текст, разработанный на кафедре фонетики СПбГУ), начитанного дикторами разного пола и возраста.

Речевой тракт представляет собой сложную акустическую систему. Акустика речевого тракта нестационарная и нелинейная. При движении артикуляционных органов форма и объем верхнего резонатора изменяются, в результате чего осуществляется речевая функция. Высота голоса определяется числом колебаний голосовых связок в секунду, а также длины связок, силы их натяжения и положения надгортанника. Сила звука определяется силой смыкания голосовых связок и силой выдоха. Тембр изменяется в зависимости от положения гортани и надгортанника.

В силу анатомических особенностей строения речевого аппарата и умения пользоваться резонаторами у одних людей получается усиление или ослабление гармонических составляющих звуков. Основное влияние на фонацию оказывают верхний резонатор и глотка. Также резонаторную функцию, состоящую в усилении тонов голоса и придании ему индивидуального тембра, осуществляют полости носа и околоносовых пазух.

Резонаторные полосы, характерные для различных звуков речи, были определены Сорокиным В.Н. (табл.2). Учет резонаторных полос полезен при определении качества речевых звуковых (особенно речевых) сигналов. Резонаторные полосы могут быть использованы для определения качества воспроизведения отдельных звуков.

Индексы у центральных частот и ширины полос приведены по Сорокину. Fx соответствует Fc, a Lx-L.

Таблица 2
Резонаторные полосы
ЗвукFpLрF1L1F2L2
1«А»273,572,4574,678,1994,148,3
F3L3F4L4F5L5F6L6
2404,877,72711,4102,53796,5145,64735,3221,8
ЗвукFpLрF1L1F2L2
2«О»287,672,4497,1100,9914,247,1
F3L3F4L4F5L5F6L6
2316,467,92635,187,64030,9142,34728,3189,5
ЗвукFpLрF1L1F2L2
3«У»296,872,4408,6149,2858,041,9
F3L3F4L4F5L5F6L6
2042,854,22761,371,23612,392,44434,3122,7
ЗвукFpLрF1L1F2L2
4«И»287,772,4393,554,92272,166,1
F3L3F4L4F5L5F6L6
3094,677,64003,683,75047,3117,06103,5133,6
ЗвукFpLрF1L1F2L2
5«Ы»302,672,4485,785,51378,447,0
F3L3F4L4F5L5F6L6
1847,746,32574,563,33732,597,74421,9124,8
ЗвукFpLрF1L1F2L2
6«Э»279,072,4490,973,11353,041,4
F3L3F4L4F5L5F6L6
2235,060,82775,078,53575,7109,44226,4141,3
ЗвукFpLрF1L1F2L2
7«С»325,472,4482,772,71619,445,7
F3L3F4L4F5L5F6L6
2861,072,74029,8106,34406,1115,95290,6153,9
ЗвукFpLрF1L1F2L2
8«Ш»335,172,4473,497,51439,953,7
F3L3F4L4F5L5F6L6
2101,657,12528,862,83159,872,94516,78117,3
ЗвукFpLрF1L1F2L2
9«X»349,972,4543,891,91459,754,8
F3L3F4L4F5L5F6L6
2035,053,52915,178,53699,193,54540,6120,5
ЗвукFpLpF1L1F2L2
10«Ф»274,972,4338,983,21024,637,4
F3L3F4L4F5L5F6L6
2110,243,22694,553,53872,978,04798,0104,9

Дополнительно могут определяться «коэффициенты важности» полос, исходя из предположения о том, чем меньше интегральная энергия на полосе, тем выше важность полосы для восприятия речи. Соответственно, для оценки качества звуковых сигналов вообще, целесообразно считать полосы равно важными, а при оценке качества речевых сигналов, передаваемых по трактам переговорных устройств, учитывать коэффициенты важности.

Границы полос (начальный и конечный индексы) определяются по следующим формулам:

где nSpecLen - количество точек в спектре (N/2);

SampleRate - частота дискретизации сигнала;

n - номер полосы.

Энергии на полосах определяются как:

где - значения интегрального спектра ( равно , полученному на последнем окне фрагмента).

Алгоритм сравнения по полосам (для одного набора) представлен на фиг.2. Исходная оценка качества полагается равной 100%. Далее она уменьшается пропорционально различию энергий на полосах. Определяются оценки качества по каждому набору полос. Оценка качества по всем наборам полос определяется как среднее значение отдельных оценок по формуле:

где Nk - количество используемых таблиц полос;

k - номер текущей таблицы;

dQk - оценка, полученная для k-той таблицы полос;

- интегральная оценка по всем таблицам.

Оценка качества для каждой фазы определяется как среднее, по всем парам фрагментов:

где - получаемое интегральное значение коэффициента потери качества;

- интегральное значение коэффициента качества на предыдущем шаге;

- значение коэффициента качества на паре фрагментов с номером t;

- значение коэффициента качества на первой паре фрагментов;

t - номер пары фрагментов.

Результирующая оценка качества по всему сигналу (dQGlobal) определяется как сумма взвешенных оценок качества активной ((Active)) и неактивной ((Pause)) фаз:

Общий алгоритм синхронизации сигналов представлен на фиг.3. На вход синхронизатора сигнала поступают отрезки сигнала (pDATA), равные по длительности фрейму VAD, и признаки активности VAD на отрезках pDATA. Имеются два входа: для эталонного (или исходного) сигнала и для тестируемого сигнала.

Перед синхронизацией проводится фильтрация выбросов признаков активности VAD, заключающаяся в том, что признак активности на коротких участках (с длительностью менее пороговой) приравнивается к признакам активности окружающего сигнала.

После фильтра признаки состояний и фреймы сигнала поступают на синхронизаторные блоки, совмещающие фрагменты активного сигнала и паузы. Модули используют общие данные: буфер активного эталонного сигнала (EBuffer1), буфер активного тестируемого сигнала (TBuffer1), буфер паузы эталонного сигнала (EBuffer0), буфер паузы тестируемого сигнала (TBuffer0), признак готовности буферов активного сигнала и пауз (dReady[0...1]), также предусмотрен счетчик ошибок синхронизации (dErrorCounter).

На выходе синхронизатора получается пара буферов с активным сигналом или пара буферов с паузами. Оба синхронизаторных блока могут инициировать появление пары синхронизированных буферов.

Синхронизированные буфера в зависимости от признака активности поступают на блок сравнения активных фрагментов или пауз (фиг.1).

В настоящее время продолжается апробирование предлагаемого метода применительно к оценке качества телефонных каналов и IP-телефонии. Ведется поиск оптимальных алгоритмов синхронизации и уточняется зависимость между оценкой качества и слоговой разборчивостью.

Ниже приводится описание реализации способа. Реализация предлагаемого способа оценки качества звуковых сигналов осуществляется на персональном компьютере с использованием программного обеспечения и разработанного авторами изобретения. Метод реализован в виде программы для оценки качества вокодеров и сравнения внешних исходных и тестируемых сигналов.

В качестве внешних сигналов могут использоваться произвольные сигналы, записанные с частотой дискретизации 8 кГц и разрядностью отсчетов 16 бит. Предполагается, что тестируемый сигнал получен из исходного сигнала в результате каких-либо преобразований (например, сжатие/восстановление, передача по каналам связи, фильтрация).

Дополнительно, в качестве исходного внешнего сигнала может использоваться запись фонетически представительного текста, начитанного несколькими дикторами разного пола и возраста.

В качестве внутренних исходных сигналов (сигналов, к которым пользователь программы не имеет доступа) используются сигналы, генерируемые в соответствии с шумовой моделью (описание генератора приведено ниже) и сигналы, генерируемые на основе статистической модели.

Внутренние сигналы подаются на вход реализации системы сжатия/восстановления звуковых данных, реализуемой в виде DLL с оговоренным интерфейсом. Допускается использование DLL, разработанных как авторами предлагаемого метода, так и сторонними разработчиками. Сигнал, прошедший обработку методами, содержащимися в DLL, считается тестируемым и подвергается процедуре оценки качества, описанной выше.

На фиг.4 представлен алгоритм фильтрации выбросов VAD. В качестве исходных данных выступают отрезки сигнала pDATA и признаки активности VAD-dVAD. В табл.3 приведены названия переменных, их назначение и начальные значения. Кроме переменных в алгоритме использованы три константы: порог выправления пауз в активное состояние (dBound[0]=6), порог выправления активного состояния в паузу (dBound[1]=4) и длина линии задержки (dDLSize=max(dBound[])+1).

Используемые значения констант определены экспериментально (для случая оценки качества сигналов, прошедших процедуру сжатия/восстановления) и могут изменяться при реализации для лучшей синхронизации конкретных сигналов.

Таблица 3
Переменные, используемые фильтром выбросов VAD
ПеременнаяНазначениеН/з
dVADЗначение признака активности, поступающее на вход алгоритма-
pDATAМассив отсчетов сигнала с длиной, равный фрейму VAD-
dStateПризнак активности участка (предшествующее значение признака активности)-1
dSLenКоличество последовательных фреймов с одинаковым признаком активности0
dNDLFramesОбщее количество фреймов, поступивших на вход алгоритма0
DelayLine[]Линия задержки. Сохраняет признаки активности и массивы отсчетов-

Алгоритм проверяет признак активности текущего блока сигнала. Если признак активности совпадает с текущим принимаемым состоянием, то пришедший фрейм просто добавляется в линию задержки, а первый элемент линии задержки выдается на вход синхронизаторного блока.

Если признак активности не совпадает с текущим принимаемым состоянием, то осуществляется проверка на приход первого фрейма сигнала. Первый фрейм просто помещается в линию задержки, а его признак активности принимается за текущее состояние.

Если происходит смена активности принимаемого сигнала в процессе фильтрации, то проверяется количество фреймов сигнала, принятых в предыдущем состоянии. Если количество фреймов меньше установленного порога, то производится смена их признака активности на противоположный, если нет, то просто изменяется текущее состояние и сбрасывается счетчик фреймов, принятых в текущем состоянии. После всех операций по смене состояния фрейм помещается в линию задержки.

Работа алгоритма завершается по получению признака окончания сигнала. При этом на вход синхронизаторного блока отдается весь накопленный сигнал, если, конечно, таковой имеется, и только потом - признак окончания сигнала.

Для синхронизации сигналов используется пара синхронизаторных блоков, работающих с несколькими общими переменными, описанными выше. Алгоритм работы синхронизаторного блока представлен на фигурах 5-8.

Синхронизаторный блок 0 обрабатывает эталонный сигнал (фиг.5), а блок 1 - тестируемый. Алгоритмы блоков идентичны, блоки используют перекрестные ссылки на буфера, т.е. в блоке 0 XBuffer0 - это буфер пауз эталонного сигнала, a - тестируемого, и наоборот - в блоке 1 XBuffer0 - буфер пауз тестируемого сигнала, a - эталонного.

Аналогично в блоке 0 XBuffer1 - это буфер активного эталонного сигнала, a - тестируемого, и наоборот - в блоке 1 XBuffer1 - буфер активного тестируемого сигнала, а - эталонного.

По получению признака конца сигнала алгоритм завершает свою работу. Ветка останова представлена на фиг.8.

В зависимости от признака активности VAD сигнал помещается либо в буфер пауз, либо в буфер активного сигнала. Если размер буфера превышает пороговое значение, то производится выдача синхронизированных буферов на модуль сравнения. Ветки, выдающие синхронизацию по размеру буфера, представлены на фиг.7.

После помещения сигнала в буфер проверяется текущее состояние активности сигнала. Если оно прежнее, то производится переход к началу и ожидаются новые данные. При изменении состояния проверяется, не была ли это первая порция данных? Если «да», то принимается ее состояние активности и осуществляется переход на начало.

Если нет, то увеличивается признак готовности сигнала в данном состоянии, после чего проверяется не готовы ли оба сигнала, т.е. участки активного сигнала или паузу синхронизированы. Если есть синхронизированные фрагменты сигнала, переходим к ветке, представленной на фиг.6. Если нет, то переход на начало алгоритма.

По текущему состоянию определяется, была ли найдена синхронизация для пауз или для активного сигнала. Проверяем результат синхронизации на ошибку путем сравнения с нулем размеров буферов (своего и буфера из параллельного блока) сигнала. Ели хоть один из них равен нулю, то произошла ошибка синхронизации.

Если все в порядке синхронизированные буфера выдаются на вход модуля сравнения. Если нет - то счетчик ошибок увеличивается, буфера сбрасываются, изменяется состояние активности и происходит возврат к ожиданию новой порции данных.

Прежде чем отдать буфера по превышению размера сегмента, производим проверку размера параллельного буфера (фиг.7). Если буфер параллельного блока пуст - буфера сбрасываются и увеличивается счетчик ошибок синхронизации. Если данные присутствуют в обоих буферах, модулю сравнения сигналов отдаются синхронизированные фрагменты.

Перед окончанием работы проверяется: есть ли данные в буферах пауз и буферах активного сигнала. Если есть, то отдаем соответствующие синхронизированные пары (или пару) сигналов модулю сравнения. После чего, выдаем модулю сравнения признак окончания сигнала.

Далее рассчитываются интегральные спектры выделенных и совмещенных фрагментов в соответствии с описанием метода, приведенным выше. Для расчета спектров используется 1024-точечное дискретное косинуспреобразование, обеспечивающее достаточную для 8 кГц сигнала точность определения границ полос.

В табл.4 представлены коэффициенты важности отдельных полос, определенные в соответствии с описанием метода. Коэффициенты определены для сигналов, записанных с частотой дискретизации 8 кГц.

Таблица 4
Коэффициенты важности критических полос
ЦвикерПокровскийФлетчерСапожков
VclogVclineVclogVclineVclogVclineVclogVcline
1.112257.022757.023221.000234.060620.000554.119224.002201
2.071777.001918.052324.001002.062399.000774.122034.002950
3.063108.000816.059593.002275.056358.001181.150998.008126
4.066354.001426.057859.004045.058028.001615.136877.027655
5.063906.001986.061305.009510.061681.003002.141754.081240
6.063221.003309.059533.019082.064525.004624.124286.165172
7.056019.005001.061430.029982.067569.006987.123389.462036
8.057442.009524.064073.032110.072189.012508.073987.249604
9.061323.023545.068123.037674.068211.020201
10.055594.037177.074750.066339.068900.045774
11.052207.048333.082703.121272.062134.041917
12.046928.043929.086423.153918.059783.055413
13.043235.066483.067701.114197.063507.122423
14.043545.132619.042399.063481.049434.112761
15.037087.111828.035929.044686.041380.072089
16.029355.072354.045791.100261.081286.497994
17.026423.087377.055098.199775
18.049202.329361

Также в соответствии с описанием метода определены логарифмические полосы и их коэффициенты важности, справедливые для 8 кГц сигнала (табл.5).

Таблица 5
Логарифмические полосы и их коэффициенты важности полос
FcLVclineFcLVclineFcLVcline
174149.00517081035180.013173152551242.090052
2207117.00042691219188.022271162797250.081422
3324117.000556101410195.029766173035227.069182
4445125.000925111609203.027939183273250.079362
5574133.001577121816211.042986193539281.142375
6715148.002717132047250.079971203836313.204682
7867156.005893142301258.099413

В соответствии с описанием метода рассчитываются интегральные спектры фрагментов, энергии на полосах, оценки качества по каждой паре фрагментов и интегральная, результирующая оценка качества. Данная реализация задействует все наборы полос.

Затем для удобства сравнения с субъективными оценками MOS объективная оценка в процентах пересчитывается в баллы путем деления на 20.

Генератор сигнала, соответствующий шумовой модели речеобразования, работает следующим образом: генерируется белый шум. Из него вырезаются критические полосы, определенные Покровским или Сапожковым (табл.1). Каждая полоса модулируется частотами, перечисленными ниже. Частоты модуляции применяются последовательно на количестве отсчетов, указанных для каждой частоты (число в скобках). После того, как перебраны все частоты модуляции, делается пауза в 8000 отсчетов (1 секунда) и осуществляется переход к следующей полосе.

Используются следующие частоты модуляции: 0.63 (40000), 0.84 (40000), 1.05 (40000), 1.26 (40000), 1.68 (40000), 2.10 (20000), 2.52 (20000), 3.36 (20000), 4.20 (20000), 5.04 (20000), 6.72 (10000), 8.40 (10000), 10.08 (10000), 13.44 (10000).

Статистическая модель генерирует звуковой сигнал исходя из знаний о звуковом составе русского языка, частотности звуков, статистической информации о физических характеристиках звуков, статистических данных о составе населения, образцов голоса нескольких дикторов. Модель генерирует исходный звуковой сигнал, как последовательность образцов голосов диктора, берущихся в случайном порядке, в количестве, пропорциональном их частотности.

В результате апробации предлагаемого способа были получены оценки качества нескольких стандартных вокодеров. В табл.6 приводится оценка качества нескольких стандартных вокодеров, полученные на различных тестовых сигналах, предлагаемым способом с использованием описанной реализации. Для сравнения в таблице приведены оценки MOS.

Таблица 6
Оценка качества звука вокодеров
КодекMOSШумовая модельСтатистическая модельФПТ
МинимальныйСокращенныйПолный
-Vc-Fc-Vc-Vc-Vc
A-Law4,104,794,734,784,784,784,784,794,804,804,84
Mu-Law4,104,794,844,774,774,774,784,784,794,794,82
G.723.6.33,904,254,484,214,294,224,334,154,044,083,95
GSM.6.103,703,201,993,011,653,041,784,223,664,013,21
G.723.5.33,654,234,444,184,274,194,324,144,044,063,93

В графе со знаком «-» приведены оценки при принятии полос равновероятными, а в графе «Vc» - оценки, полученные с учетом коэффициентов важности.

Предлагаемый способ оценки звуковых сигналов имеет ряд преимуществ перед известными методами измерения качества, а именно:

- обладает универсальностью, т.к. позволяет судить о качестве сигналов, имеющих различное происхождение, прошедших различные процедуры обработки;

- процесс оценки качества может быть оптимизирован в зависимости от целей получения оценки:

- по скорости (например, возможно быстро получить грубую оценку);

- по типу сигнала (использование различных полос для речевых сигналов и звуковых сигналов вообще);

- полученная оценка хорошо коррелируют с оценками MOS;

- оценки качества, полученные для речевых сигналов, могут быть пересчитаны в значения различных видов разборчивости.

Ниже приводится краткое описание нескольких возможных вариантов применения предлагаемого метода для оценки качества звука.

На фиг.9 представлена схема применения предлагаемого метода для оценки качества передачи звука через телефонную сеть общего пользования. Данная схема справедлива как для местной, так и для междугородней/международной связи.

Сервер оценки качества звука генерирует исходный сигнал (или выбирает среди заранее приготовленных) и передает его одному из абонентов, участвующих в тестировании.

Абонент, получивший сигнал, устанавливает обычное телефонное соединение со вторым абонентом, и воспроизводит исходный сигнал. Второй абонент записывает принимаемый звуковой сигнал, и передает его на сервер оценки качества звука.

Сервер оценки качества звука производит сравнение исходного и тестируемого сигналов в соответствии с предлагаемым методом и выдает оценку качества звука, прошедшего через телефонную сеть. Полученная оценка может быть использована для повышения качества обслуживания абонентов, принятия решения о необходимости замены или настройки оборудования (как на стороне абонента, так и на стороне станции), в рекламных целях и др.

Аналогичным образом происходит оценка качества звука по IP-сети, представленная на фиг.10. Отличие от предыдущего варианта применения заключается в способе передачи исходного и тестируемого звукового сигналов от сервера оценки качества звука к абонентам, и в способе передачи данным между абонентами.

Кроме того, полученные оценки качества могут быть использованы для выбора кодеков, используемых при VoIP-связи и для выбора операторов, предоставляющих услуги IP-телефонии.

Аналогичным образом предлагаемый метод может быть использован для оценки сотовой и спутниковой связи (см. фиг.11). Полученные оценки могут использоваться абонентами для выбора операторов связи и моделей телефонов, а операторами - для оптимизации размещения базовых станций.

На фиг.12 представлен процесс использования предлагаемого метода оценки качества звука разработчиками и тестировщиками систем и алгоритмов (методов) сжатия звуковых данных. Каждая версия кодека (или кодек с набором параметров) требует оценки и сравнения с аналогами. Каждый разработчик может обратиться к базе звуковых образцов, сжать и восстановить сигнал и получить объективную оценку качества работы кодека.

Такая система позволит управлять процессом разработки кодеков и оптимизацией их параметров, кроме того, конечный потребитель сможет получить оптимальный алгоритм, а не просто работающий.

На фиг.13 представлен процесс оценки звукового качества помещений. В данном случае исходным является сигнал, получаемый с микрофона, расположенного напротив диктора, а тестовыми сигналы с микрофонов, расположенных в разных частях помещения, в местах расположения слушателей и звуковоспроизводящего оборудования.

Полученные оценки могут использоваться для оптимизации расположения звуковоспроизводящего оборудования, мебели и зрительских мест.

После апробации предлагаемый способ в течение 2005-06 г.г. будет широко использоваться в различных областях техники.

1. Способ осуществления машинной оценки качества звуковых сигналов, в котором из фрагментов исходного и тестируемого сигнала выделяют активную и неактивную фазы, определяют спектр активной фазы, делят его на критические полосы и рассчитывают значения спектральной энергии на критических полосах, определяют значения спектрального подобия активной фазы фрагментов, а качество тестируемого звукового сигнала определяют посредством взвешенной линейной комбинации из полученных значений качества для каждой фазы, отличающийся тем, что выделенные фрагменты активной и неактивной фазы обоих сигналов синхронизируют, определяют спектры неактивной фазы для каждого из фрагментов, полученные спектры активной и неактивной фазы фрагментов делят на наборы полос, включающие дополнительные наборы критических, а также логарифмических и резонаторных полос, для каждой из которых рассчитывают значения спектральной энергии, сравнивают попарно полученные спектральные энергии активной и неактивной фазы фрагментов, для определения коэффициентов спектрального подобия, результирующий коэффициент подобия для каждой фазы определяют, как среднее значение коэффициентов подобия по всем наборам полос, который является оценкой качества каждой фазы.

2. Способ по п.1, отличающийся тем, что в качестве исходного сигнала можно использовать как произвольный звуковой сигнал, так и специализированный набор сигналов.

3. Способ по п.1, отличающийся тем, что спектры фрагментов активной и неактивной фазы определяют, используя дискретное косинус-преобразование.

4. Способ по п.1 отличающийся тем, что значение спектральной энергии активной и неактивной фазы каждого фрагмента рассчитывают с учетом коэффициентов важности каждой полосы, включенной в набор.

5. Способ по любому из п.1 или 4, отличающийся тем, что в качестве наборов полос используют различное сочетание логарифмических, резонаторных и известных критических полос.



 

Похожие патенты:

Изобретение относится к способу и устройству в области высокочастотного восстановления, применяемого в системах кодирования аудиосигналов. .

Изобретение относится к распознаванию речи. .

Изобретение относится к машинной оценке качества передачи аудиосигналов. .

Изобретение относится к области радиотехники, в частности к кодированию информации для расширения формата кодируемых сигналов. .

Изобретение относится к кодированию и декодированию речи. .

Изобретение относится к речевым декодерам, применяемым в радиоприемниках систем радиосвязи с подвижными объектами. .

Изобретение относится к цифровой обработке речи. .

Изобретение относится к технике речевого анализа. .

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии.

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ) , и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии.

Изобретение относится к распознаванию речи и, более конкретно, к способу и устройству для вычисления акустических вероятностей при распознавании речи. .

Изобретение относится к автоматике и вычислительной технике. .

Изобретение относится к области анализа и распознавания речевых сигналов. .

Изобретение относится к области информационных технологий - обработки аудио сигналов, в частности к способу распознавания музыкальных произведений и устройству для его осуществления.

Изобретение относится к системам обработки информации и управления, а именно к способам построения систем распознавания речи. .

Изобретение относится к устройству и способам для непрерывного контроля эмоциональных состояний. .

Изобретение относится к статистическим моделям языка, используемых в системах распознавания речи. .

Изобретение относится к системам передачи речевой активности в распределенной системе распознавания голоса. .

Изобретение относится к измерению разборчивости речи и предназначено для оценки защиты объектов от несанкционированной утечки акустической речевой информации в реальных условиях.
Наверх