Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием

Изобретение относится к вычислительной технике для обработки аудиоданных. Технический результат заключается в обеспечении автоматической оценки качества сигналов НСКР без преобразования исследуемого цифрового потока (ЦП) к формату импульсно-кодовой модуляции (ИКМ), обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала. Технический результат достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (mj эт, Сj эт) j-го класса, j=1,2,…,J, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала ejmах. В качестве меры различения между ними использована дивергенция νj. Здесь m, mj эт - векторы математического ожидания анализируемого ЦП и j-го эталонного образа соответственно, С, Cj эт - ковариационные матрицы анализируемого ЦП и j-го эталонного образа. На основе функциональной зависимости еj=ƒ(νj), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции vj между образом (m, С) и одним эталонным образом (mj эт, Сj эт) j-го класса обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ. 7 ил.

 

Изобретение относится к области автоматической оценки качества речевых сигналов и может быть внедрено в системах контроля состояния цифровых телефонных радиолиний, использующих передачу сигналов с низкоскоростным кодированием речи (НСКР), при разработке вокодеров для оценки качества синтезируемых речевых сигналов, а также использовано на этапе анализа исходных данных при автоматическом распознавании речевых сообщений, передаваемых по цифровым линиям связи.

Заявленное техническое решение повышает эффективность средств аналогичного назначения при отсутствии исходного (сравниваемого) сигнала и исключении процедуры декодирования цифровых потоков, содержащих сообщения с НСКР.

Известен способ машинной оценки качества передачи речи (см. Патент РФ №2435232, МПК G10L 15/14, опубл. 27.11.2011, бюл. 33), в котором осуществляют загрузку звукового сигнала в оперативную память компьютера, выделяют в сигнале фрагменты активной и неактивной фаз, вычисляют спектры для каждой фазы, которые разделяют на критические полосы, рассчитывают значения спектральных параметров для каждой критической полосы как в спектральной, так и во временной областях, исключают из обработки фрагменты активной фазы, соответствующие тональному набору, до деления на критические полосы, осуществляют многоуровневую психоакустическую фильтрацию спектров, полученные параметры обрабатываемого сигнала сравнивают с ассоциациями, хранящимися в базе данных, и выбирают ассоциации, наиболее близкие по всем параметрам к обрабатываемому сигналу, а оценку качества речи определяют как сумму взвешенных значений степеней близости, получают значение машинной оценки качества речевого сигнала путем сравнения параметров обрабатываемого сигнала с параметрами моделей речи, хранящимися в базе ассоциаций.

Недостатком аналога является необходимость преобразования исследуемого сигнала в цифровой поток (ЦП) с импульсно-кодовой модуляцией (ИКМ). Данное преобразование для сигналов с низкоскоростным кодированием заключается в декомпрессия сжатого ЦП в приемной части вокодера, которое помимо существенных временных и вычислительных затрат неизбежно вызывает искажения в синтезируемом ЦП формата ИКМ, возрастающие при ухудшении качества канала радиосвязи. Другим недостатком аналога является конечное число ассоциаций (эталонных описаний), к одной из которых относят анализируемый сигнал, что предполагает сравнение образа входного сигнала со всеми эталонными описаниями. Недостаточное число эталонных описаний (например, не более трех эталонных описаний) не позволит оценивать качество речевого сигнала с требуемой точностью, а необоснованное увеличение их числа приведет к многократному увеличению вычислительных затрат.

Наиболее близким к заявленному является способ (прототип) распознавания новых протоколов низкоскоростного кодирования речи (см. Патент РФ №2667462, МПК: G06K9/00, Н04 В1/06, опубл. 19.09.2018, бюл. №26), заключающийся в том, что принимают цифровой информационный поток Y в течение интервала времени ΔT, на основе принятого потока Y формируют нормированную автокорреляционную функцию А, по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции А принимают решение о наличии блочной структуры в цифровом информационном потоке Y, по интервалам между экстремумами автокорреляционной функции А делят цифровой информационный поток Y на информационные блоки объемом Nб бит каждый, последовательно присваивают информационным блокам порядковые номера k=1,2,…, К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу YK×L, L=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, поочередно выделяют столбцы из матрицы YK×L с номерами по каждому столбцу информационной матрицы YK×L вычисляют значение математического ожидания появления определенных импульсов, формируют вектор вычисленных значений математического ожидания последовательным размещением полученных значений математического ожидания в соответствии с их порядковыми номерами на основе сформированного вектора значений математического ожидания m(0) путем последовательного циркулярного сдвига его значений на величину L - 1 формируют набор М векторов значений математического ожидания формируют эталонные векторы значений математического ожидания mj эт, j=1,2,…,J, по каждому цифровому информационному потоку Yj эт, соответствующему j-му известному протоколу НСКР, каждый вектор значений математического ожидания оцениваемого протокола НСКР последовательно сравнивают с эталонными векторами значений математического ожидания mj эт, j=1,2,…,J, вычисляют значение вероятности правильного распознавания j-го протокола НСКР по каждому вектору значений математического ожидания принимают решение в пользу j-го протокола НСКР, для которого обеспечивается максимальное значение вероятности правильного распознавания

Способ-прототип обеспечивает повышение точности и скорости распознавания протоколов НСКР в условиях воздействия помех. При этом о качестве речевых сигналов с низкоскоростным кодированием косвенно можно судить по величине вероятности правильного распознавания исследуемого ЦП у и соответствующего ему эталонного образа, при условии, что оба образа принадлежат к одному классу - известному j-му протоколу НСКР.

В качестве недостатка прототипа следует отметить отсутствие точного соответствия между используемой мерой отличия ЦП у от эталонного описания и какой-либо мерой качества речевого сигнала.

Целью заявленного технического решения является разработка способа автоматической оценки качества сигналов с низкоскоростным кодированием речи без преобразования исследуемого ЦП у с НСКР к формату ИКМ, обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала.

Поставленная цель достигается тем, что в известном способе автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающемся в том, что принимают бинарный информационный цифровой поток у объемом NЦП бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом Nб бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы yz, z=1,2,…,Z, определяют значения математического ожидания (МО) mz по каждому столбцу yz, формируют вектор значений МО последовательным размещением значений МО mz, формируют обучающую выборку {yjw}W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков yjw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке еj mах качества речевого сигнала, формируют эталонный ЦП уjэт путем последовательной конкатенации цифровых потоков yjw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Yj эт, строками которой являются последовательно размещенные друг под другом ЦП уj эт, вычисляют по эталонной матрице Yj эт эталонный вектор значений МО mj эт, вектор МО m оцениваемого потока НСКР последовательно сравнивают с эталонными векторами МО mj эт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, в случае принятия решения о использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу Сj эт, формируют эталонный образ в виде совокупности (mj эт, Сj эт), искажают эталонный ЦП уj эт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Рош(1) до максимального Pош(G) значений, формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (mj эт, Сj эт) и каждого из G образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида еj=ƒ(νj) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (mj эт, Сj эт) путем вычисления значения дивергенции νj, получают значение оценки еj качества сигнала с НСКР путем вычисления степенного многочлена вида ej=ƒ(νj) подстановкой в него известного ранее вычисленного значения νj, при выполнении условия νjj (1) значение оценки качества сигнала с НСКР соответствует величине ej max максимальной оценки качества речевого сигнала, при выполнении условия νjj (G) значение оценки качества сигнала с НСКР соответствует величине еj min минимальной оценки качества речевого сигнала.

Благодаря новой совокупности существенных признаков в заявленном способе обеспечивается автоматическая оценка качества речевых сигналов с низкоскоростным кодированием за счет сравнения образа (m, С) входной реализации у и эталонного образа (mj эт, Сj эт) с помощью меры различия, которая представлена дивергенцией νj.

Заявленный способ поясняется чертежами, на которых показаны:

на фиг. 1 - порядок формирования эталонного ЦП уj эт;

на фиг. 2 - порядок формирования прямоугольной эталонной информационной матрицы Yj эт;

на фиг. 3 - алгоритм оценки качества речевых сигналов с низкоскоростным кодированием;

на фиг. 4 - зависимость значений eзj разборчивости звуков речи от вероятности битовой ошибки Рош в речевых сигналах с низкоскоростным кодирование, сформированных по j-му протоколу LPC-10-2400 (STANAG 4197);

на фиг. 5 - табличная форма представления соответствия (3);

на фиг. 6 - результаты формирования соответствия (3) для j-го протокола LPC-10-2400 (STANAG 4197) при G=8;

на фиг. 7 - графическая зависимость значений eзj разборчивости звуков речи от дивергенции νj между исследуемым и эталонным образами, соответствующих j-му протоколу LPC-10-2400 (STANAG 4197).

Качество речи - величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по пятибалльной шкале в сравнении с эталонным трактом. Одним из важных показателей качества речи является ее разборчивость - относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов. Между различными показателями качества речи установлены функциональные взаимосвязи, что позволяет получать значения требуемых показателей, в том числе и субъективные оценки звучания речи.

Оценку качества речевых сигналов осуществляют при анализе свойств речевого сигнала и его источника, а также для определения эффективности системы передачи речевых сообщений в целом или свойств отдельных ее элементов, в том числе средств НСКР (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с. ). Субъективные методы оценки качества речи требуют участия групп подготовленных экспертов, автоматизация в них касается процессов ввода и статистической обработки результатов артикуляционного тестирования. Объективные методы оценки качества основаны на анализе каких-либо параметров и характеристик исследуемого процесса, что позволяет полностью автоматизировать процесс оценки качества речевых сигналов. В известных методах автоматической оценки качества речи предполагается определение параметров речевого сигнала, представляемого в формате ИКМ, и выбор (с некоторой точностью) соответствующих им значений оценок качества речи. В этом случае на этапе обучения осуществляется построение психофизической шкалы и ее математическое или графическое описание, которое далее используется на этапе исследования принимаемых речевых сигналов (см. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи / Под ред. М.А. Сапожкова. - М.: Радио и связь, 1987. - 168 с.; Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с.).

При исследовании качества речевых сигналов, передаваемых через системы радиосвязи диапазонов ВЧ/ОВЧ с использованием НСКР, рассматривают предположение о нормальных акустических условиях при формировании речевого сигнала по ГОСТ 7153 (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с.). При этом основное внимание уделяется исследованию качества сигналов, формируемых на выходе декодера. Результаты исследований представляют в виде зависимости значений ОКРС от вероятности битовой ошибки Рош в ЦП, переданном через канал связи.

Таким образом, автоматическая оценка качества речевых сигналов с низкоскоростным кодированием, передаваемых с помощью средств радиосвязи, обеспечивает снижение вычислительных затрат, что определяет необходимость решения этой технической задачи.

Положительный эффект в предлагаемом способе достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (mjэт, Сj эт) j-го класса, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала еj mах, при использовании меры различия между ними, в качестве которой выступает дивергенция.

На основе функциональной зависимости еj=ƒ(νj), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции νj между образом (m, С) исследуемого ЦП у с НСКР и одним эталонным образом (mj эт, Сj эт) j-го класса, обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ.

Реализация заявленного способа может быть осуществлена следующим образом (см. фиг. 3). До этапа ввода исходных данных целесообразно определить значения параметров ΔT, Nm информационного ЦП у, установить длительность интервала его анализа, определяемую величиной К - числом строк в прямоугольной информационной матрице Y, а также набор значений {Nб}, определить значение J, выбрать значение G и сформировать соответствующее количество обучающих выборок (yjw}W.

Далее на подготовительном этапе (в режиме «Обучение») по обучающим выборкам {yjw} (j=1, 2,…,J) формируют эталонные цифровые потоки {Уjэт}J путем последовательной конкатенации цифровых потоков {yJw}J (см. фиг. 1). Последние реализуются по j-м протоколам НСКР и имеют максимальное значение ej mах оценки качества речевого сигнала. Далее составляют эталонные матрицы {Yjэт}J и соответствующие им эталонные описания J известных протоколов НСКР вида (mj эт, Сj эт) (см. фиг. 2).

Устанавливают пределы изменения значений от минимального значения Рош(1), которое соответствует минимально ощутимому снижению качества речевого сообщения, до максимального значения Pош(G), при котором уже невозможно восстановление речевого сообщения. Количество G уровней (значений) вероятности битовых ошибок определяет точность построения психофизической шкалы и, как следствие, точность оценки качества речевых сигналов с НСКР. Вместе с тем, при использовании экспериментального или экспериментально-аналитического подходов к оценке качества речевых сигналов необходимо выбрать достаточное количество 6≤G≤10 уровней вероятности битовых ошибок, например, на основе метода равномерного приближения. Последний обеспечивает минимизацию наибольшего значения абсолютной ошибки интерполяции (см. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров: Пер. с англ. - М.: Наука, 1970. - 720 с.).

В соответствии со значениями вероятности битовой ошибки в эталонный ЦП уj эт вводят фиксированное количество nош битовых ошибок, определяемое выражением

где Nэ - количество символов (бит) в эталонном ЦП уj эт.

Формируют G цифровых потоков с объемом Nэ каждый, в которых ошибочные символы принимают значение «1», а остальные символы имеют значение «0». Распределение ошибочных символов в - равновероятное. Формируют G цифровых потоков , искаженных битовыми ошибками, путем поэлементного сложения эталонного ЦП уj эт по модулю 2 с каждым из G цифровых потоков :

где ⊕ - операция сложения по модулю 2.

На основе цифровых потоков , искаженных битовыми ошибками, формируют набор искаженных эталонных матриц . Далее вычисляют соответствующие им векторы значений МО и ковариационные матрицы (см. Аладинский В.А., Кузьминский С.В. Метод формирования признаков распознавания протоколов низкоскоростного кодирования речи // Наукоемкие технологии. - М.: Радиотехника. №12, 2015. - С. 20-25; Патент РФ №2667462, МПК G10L 19/008, Н03М 13/03, опубл. 19.09.2018, бюл. 26). На их основе составляют информационные образы ( ), искаженные битовыми ошибками. После этого осуществляют последовательное сравнение эталонного образа (mjэт, Сjэт) и образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними:

где , - значения следов матриц Аj, Bj размерности N; ann(j), bnn(j) - соответствующие элементы диагоналей матриц Aj, Вj;

(⋅)T - операция транспонирования.

На основе экспериментального (прямого) или экспериментально-аналитического (косвенного) подходов устанавливают соответствие между значениями оценки качества речи и значениями дивергенции :

Экспериментальный подход при формировании соответствия (4) заключается в разделении каждой матрицы на элементы декодировании цифровых потоков с помощью синтезатора приемной части вокодера к формату ИКМ и оценке качества этих речевых сигналов, подвергнутых искажению в канале связи. Оценку осуществляют на основе какого-либо известного субъективного либо объективного методов, например, PESQ (см. Recommendation ITU-T P.862. Perceptual Evaluation of Speech Quality. Geneva, 2001.-30 p.).

Экспериментально-аналитический (косвенный) подход реализуется при наличии априорных сведений о функциональной зависимости еjj(Pош) значений оценки качества речевых сигналов, синтезируемых в приемной части вокодера в соответствии с j-м протоколом НСКР, которые приведены в стандартах (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.) или представлены разработчиками (см. Бабкин В.В. Защита от ошибок и интерполяция потерь пакетов в низкоскоростных речевых кодеках // Электросвязь, №11, 2009. - С.47-49.) от вероятности битовой ошибки Рош. Зависимость еj=fj(Pош) может быть представлена в графической или аналитической формах, что позволяет получить G значений оценки качества речи при известных величинах Далее осуществляют интерполяцию полученного в (4) соответствия из G сопоставленных друг другу значений дивергенции и оценок качества речи с помощью многочлена наименьшей степени. В результате получают (одним из известных способов) интерполяционную формулу степени не более (G-1) вида:

где a0j - свободный член; - коэффициент степенного многочлена для j-го протокола НСКР.

Регистрируют полученные результаты и выводят сообщение «Обучение завершено».

В режиме «Оценка качества речевых сигналов» рассматривают матрицу Y (подход распространяется и на подобные ей матрицы Yj эт, ) как систему случайных величин (СВ). Текущий символ уkz (i), i=1,2,…, I - порядковый номер элемента (символа) алфавита случайной величины объемом I, которой является дискретной случайной величиной с объемом алфавита I=2 и принимает значение 1 при i=1 или 0 при i=2.

Определяют численные характеристики системы СВ Y={y1, y2, …, yn, …, yz, …, yZ), где yz={ylz,y2z,…,ykn,…,ykz,…,yKz) - столбец исследуемой матрицы Y, которыми являются значения МО m и ковариационная матрица С.

Вычисляют значение МО mz столбца yz, состоящего из К двоичных символов ykz, по следующей формуле (см. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и ее инженерные приложения. - М.: Наука, 1988. - 480 с. - ISBN 5-02-013748-0):

где pz(i) - вероятность появления i-го значения ykz(i) в столбце yz.

Так как уkz(2)=0, то mz=1⋅pz(1)+0⋅pz(2)=pz(1). Вычисляют вероятность pz(1) появления значения 1 в yz по формуле:

где Sz(1) - количество символов ykz со значением 1 в yz.

Вычисляют последовательно значения МО по столбцам yz матрицы Y, формируют набор

Определяют ковариационную матрицу С размерности Z, которая включает значения коэффициента ковариации

где М[⋅] - математическая операция вычисления МО; - столбцы (векторы), содержащие центрированные СВ:

n, z - порядковые номера столбцов уn и yz СВ Y;

mn, mz - столбцы (векторы) размерности К, содержащие только значения mn, mz соответственно.

Составляют образ входного информационного ЦП у с НСКР, описываемого набором (m, С).

Проверяют гипотезы о том, что входной информационный ЦП у сформирован по одному из J заданных (известных) протоколов НСКР. При подтверждении одной из гипотез считают, что при формировании ЦП у применен j-й протокол НСКР, в противном случае выводят сообщение «Протокол НСКР: не установлен, оценка качества: нет» и прекращают оценку качества речевого сигнала.

Вычисляют по формуле (3) значения дивергенции νj между образом ЦП у, представленным набором (m, С), и эталонным образом (mj эт, Сj эт).

Считают, что при выполнении условия νjj (1) значение оценки качества сигнала с НСКР соответствует максимальной оценке качества речевого сигнала еj mах. В противном случае, при выполнении условия νjj (G), значение оценки качества сигнала с НСКР соответствует минимальной величине ej min. При невыполнении рассмотренных условий рассчитывают по найденному значению дивергенции νj согласно (5) значение еj оценки качества.

Выводят сообщение «Протокол НСКР: j-й, оценка качества: еj». После этого завершают оценку качества сигнала с низкоскоростным кодированием.

Имитационное моделирование заявленного способа автоматической оценки качества речевых сигналов с низкоскоростным кодированием проведено на примере исследования сигналов, сформированных на основе известного протокола НСКР LPC-10-2400 (STANAG 4197), который широко применяется на линиях радиосвязи диапазона высоких частот. По имеющейся обучающей выборке {yjw}W был сформирован эталонный ЦП уjэт, составлена эталонная матрица yjэт и соответствующее эталонное описание вида (mjэт, Сjэт)

В настоящее время известны данные о зависимости значений eзj разборчивости звуков речи от вероятности битовой ошибки Рош в речевых сигналах с низкоскоростным кодированием (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.), сформированных по протоколу LPC-10-2400 (STANAG 4197). Последние приведены в графической форме (см. фиг. 4). В режиме «Обучение» был реализован экспериментально-аналитический (косвенный) подход для G=8, в результате чего получены значения в процентах оценки качества речи при выбранных величинах (см. фиг. 4).

Для формирования соответствия вида (4) из эталонного ЦП уj эт на основе выражений (1) и (2) и G=8 сформированы цифровые потоки искаженные битовыми ошибками, и соответствующие им матрицы На основе матриц составлены искаженные образы ( ) и реализовано вычисление (выражение 3) соответствующих значений дивергенции между эталонным и искаженными образами.

Выполнена интерполяция полученного соответствия (4), представленного строками 2 и 3 (см. фиг. 4). В результате расчетов получена интерполяционная формула вида

в которой члены со степенями >3 не приведены ввиду малости величин Последнее косвенно указывает на избыточность выбранного значения G=8. В графической форме зависимость вида (11) приведена на фиг. 7. Представленная интерполяционная формула позволяет оценивать качество речевых сигналов с низкоскоростным кодированием по протоколу LPC-10-2400 (STANAG 4197) с точностью не хуже 5%, что было установлено при исследовании цифровых потоков, сформированных по протоколу LPC-10-2400 (STANAG 4197), с известными значениями eзj качества речевых сигналов.

Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающийся в том, что принимают бинарный информационный цифровой поток (ЦП) у объемом Nцп бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом Nб бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы yz, z=1,2,…, Z, определяют значения математического ожидания (МО) mz по каждому столбцу yz, формируют вектор значений МО m=(m1,m2,…,mz,…,mz) последовательным размещением значений МО mz, формируют обучающую выборку {yjw}W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков yjw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке еjmах качества речевого сигнала, формируют эталонный ЦП уj эт путем последовательной конкатенации цифровых потоков yjw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Yjэт, строками которой являются последовательно размещенные друг под другом ЦП уjэт, вычисляют по эталонной матрице Yjэт эталонный вектор значений МО mjэт, вектор МО m оцениваемого потока низкоскоростного кодирования речи (НСКР) последовательно сравнивают с эталонными векторами МО mjэт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, отличающийся тем, что в случае принятия решения об использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае дополнительно на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу Сjэт, формируют эталонный образ в виде совокупности (mj эт, Сj эт), искажают эталонный ЦП уjэт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Рош(1) до максимального Рош(G) значений; формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (mj эт, Сj эт) и каждого из G образов (), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида еj=ƒ(νj) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (mj эт, Сj эт) путем вычисления значения дивергенции νj, получают значение оценки еj качества сигнала с НСКР путем вычисления степенного многочлена вида еj=ƒ(νj) подстановкой в него известного ранее вычисленного значения νj, при выполнении условия νjj (1) значение оценки качества сигнала с НСКР соответствует величине ejmax максимальной оценки качества речевого сигнала, при выполнении условия νjj(G) значение оценки качества сигнала с НСКР соответствует величине ej min минимальной оценки качества речевого сигнала.



 

Похожие патенты:

Изобретение относится к акустике. Аудиосистема содержит устройство воспроизведения первичного канала для воспроизведения первичного аудиосигнала, сгенерированного на основании аудиосигнала левого канала и/или аудиосигнала правого канала; схему первого вторичного сигнала для генерации первого вторичного аудиосигнала на основании аудиосигнала левого канала и аудиосигнала правого канала и первое устройство воспроизведения с управлением звуковым полем, подключенное к схеме первого вторичного сигнала и выполненное с возможностью воспроизведения первого вторичного аудиосигнала; причем между воспроизведением первого вторичного аудиосигнала и воспроизведением первичного аудиосигнала имеется первый период задержки воспроизведения; причем первый вторичный аудиосигнал, воспроизводимый первым устройством воспроизведения с управлением звуковым полем, не подвергается микшированию с первичным аудиосигналом с помощью первой схемы микширования аудиосигналов, причем схема первого вторичного сигнала содержит: первый вычитающий операционный усилитель; первый делитель мощности, подключенный к первому вычитающему операционному усилителю и расположенный после него; первый фильтр верхних частот, подключенный к первому делителю мощности и расположенный после него; первую цифровую схему задержки, подключенную к первому фильтру верхних частот и расположенную после него; и первый усилитель, подключенный к первой цифровой схеме задержки и расположенный после нее.

Изобретение относится к области цифровой вычислительной техники, в частности к передаче речевых файлов по зашумленному каналу. Заявленные способ и устройство могут найти применение при передаче речевых команд, синтезируемых роботом, когда разборчивость выходит на передний план.

Изобретение относится к области акустики. Способ индивидуальной коррекции параметров технических каналов передачи образовательного контента, воспринимаемого органами слуха, заключатся в генерации акустических колебаний.

Изобретение относится к области вычислительной техники для обработки аудиосигналов. Технический результат заключается в уменьшении искажения звукового образа при отличии конфигурации установленных динамиков от стандартной конфигурации.

Изобретение относится к средствам для управления полосой частот в кодерах и декодерах. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к области обработки аудиоданных. Технический результат заключается в повышении производительности обработки аудиоданных.

Изобретение относится к области аудиодекодирования. Технический результат заключается в снижении искажения компонента частотного диапазона, кодируемого с малым числом битов во временной области.

Изобретение относится к области кодирования/декодирования сегмента аудиосигнала. Технический результат заключается в снижении потребления битов при кодировании спектральных пиков.

Изобретение относится к средствам для кодирования и декодирования аудиосцены. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к области информационных технологий, а именно к области цифровой связи. Технический результат заключается в снижении вероятности ложной тревоги и, как следствие, повышении достоверности распознавания (вероятности правильного распознавания) новых протоколов (НСКР).

Изобретение относится к области вычислительной техники для аутентификации пользователя с помощью голосовой биометрии. Технический результат заключается в повышении надежности аутентификации пользователя с помощью голосовой биометрии и устойчивости к атакам.
Наверх