Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием

Авторы патента:

Смирнов Павел Леонидович (RU)

Аладинский Виктор Алексеевич (RU)

Кузьминский Сергей Владиславович (RU)

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

G10L15/20 - техника распознавания речи, специально предназначенная для крайне неблагоприятных условий окружения, например в шуме, при речи, вызванной стрессом (G10L 21/02 имеет преимущество)

Владельцы патента RU 2757860:

Общество с ограниченной ответственностью "Специальный Технологический Центр" (RU)
Федеральное государственное унитарное предприятие "18 Центральный научно-исследовательский институт" Министерства обороны Российской Федерации (RU)

Изобретение относится к вычислительной технике для обработки аудиоданных. Технический результат заключается в обеспечении автоматической оценки качества сигналов НСКР без преобразования исследуемого цифрового потока (ЦП) к формату импульсно-кодовой модуляции (ИКМ), обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала. Технический результат достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (m_j _эт, С_j _эт) j-го класса, j=1,2,…,J, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала e_jmах. В качестве меры различения между ними использована дивергенция ν_j. Здесь m, m_j _эт - векторы математического ожидания анализируемого ЦП и j-го эталонного образа соответственно, С, C_j _эт - ковариационные матрицы анализируемого ЦП и j-го эталонного образа. На основе функциональной зависимости е_j=ƒ(ν_j), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции v_j между образом (m, С) и одним эталонным образом (m_j _эт, С_j _эт) j-го класса обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ. 7 ил.

Изобретение относится к области автоматической оценки качества речевых сигналов и может быть внедрено в системах контроля состояния цифровых телефонных радиолиний, использующих передачу сигналов с низкоскоростным кодированием речи (НСКР), при разработке вокодеров для оценки качества синтезируемых речевых сигналов, а также использовано на этапе анализа исходных данных при автоматическом распознавании речевых сообщений, передаваемых по цифровым линиям связи.

Заявленное техническое решение повышает эффективность средств аналогичного назначения при отсутствии исходного (сравниваемого) сигнала и исключении процедуры декодирования цифровых потоков, содержащих сообщения с НСКР.

Известен способ машинной оценки качества передачи речи (см. Патент РФ №2435232, МПК G10L 15/14, опубл. 27.11.2011, бюл. 33), в котором осуществляют загрузку звукового сигнала в оперативную память компьютера, выделяют в сигнале фрагменты активной и неактивной фаз, вычисляют спектры для каждой фазы, которые разделяют на критические полосы, рассчитывают значения спектральных параметров для каждой критической полосы как в спектральной, так и во временной областях, исключают из обработки фрагменты активной фазы, соответствующие тональному набору, до деления на критические полосы, осуществляют многоуровневую психоакустическую фильтрацию спектров, полученные параметры обрабатываемого сигнала сравнивают с ассоциациями, хранящимися в базе данных, и выбирают ассоциации, наиболее близкие по всем параметрам к обрабатываемому сигналу, а оценку качества речи определяют как сумму взвешенных значений степеней близости, получают значение машинной оценки качества речевого сигнала путем сравнения параметров обрабатываемого сигнала с параметрами моделей речи, хранящимися в базе ассоциаций.

Недостатком аналога является необходимость преобразования исследуемого сигнала в цифровой поток (ЦП) с импульсно-кодовой модуляцией (ИКМ). Данное преобразование для сигналов с низкоскоростным кодированием заключается в декомпрессия сжатого ЦП в приемной части вокодера, которое помимо существенных временных и вычислительных затрат неизбежно вызывает искажения в синтезируемом ЦП формата ИКМ, возрастающие при ухудшении качества канала радиосвязи. Другим недостатком аналога является конечное число ассоциаций (эталонных описаний), к одной из которых относят анализируемый сигнал, что предполагает сравнение образа входного сигнала со всеми эталонными описаниями. Недостаточное число эталонных описаний (например, не более трех эталонных описаний) не позволит оценивать качество речевого сигнала с требуемой точностью, а необоснованное увеличение их числа приведет к многократному увеличению вычислительных затрат.

Наиболее близким к заявленному является способ (прототип) распознавания новых протоколов низкоскоростного кодирования речи (см. Патент РФ №2667462, МПК: G06K9/00, Н04 В1/06, опубл. 19.09.2018, бюл. №26), заключающийся в том, что принимают цифровой информационный поток Y в течение интервала времени ΔT, на основе принятого потока Y формируют нормированную автокорреляционную функцию А, по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции А принимают решение о наличии блочной структуры в цифровом информационном потоке Y, по интервалам между экстремумами автокорреляционной функции А делят цифровой информационный поток Y на информационные блоки объемом N_б бит каждый, последовательно присваивают информационным блокам порядковые номера k=1,2,…, К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y_K×L, L=N_б, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, поочередно выделяют столбцы из матрицы Y_K×L с номерами по каждому столбцу информационной матрицы Y_K×L вычисляют значение математического ожидания появления определенных импульсов, формируют вектор вычисленных значений математического ожидания последовательным размещением полученных значений математического ожидания в соответствии с их порядковыми номерами на основе сформированного вектора значений математического ожидания m(0) путем последовательного циркулярного сдвига его значений на величину L - 1 формируют набор М векторов значений математического ожидания формируют эталонные векторы значений математического ожидания m_j _эт, j=1,2,…,J, по каждому цифровому информационному потоку Y_j _эт, соответствующему j-му известному протоколу НСКР, каждый вектор значений математического ожидания оцениваемого протокола НСКР последовательно сравнивают с эталонными векторами значений математического ожидания m_j _эт, j=1,2,…,J, вычисляют значение вероятности правильного распознавания j-го протокола НСКР по каждому вектору значений математического ожидания принимают решение в пользу j-го протокола НСКР, для которого обеспечивается максимальное значение вероятности правильного распознавания

Способ-прототип обеспечивает повышение точности и скорости распознавания протоколов НСКР в условиях воздействия помех. При этом о качестве речевых сигналов с низкоскоростным кодированием косвенно можно судить по величине вероятности правильного распознавания исследуемого ЦП у и соответствующего ему эталонного образа, при условии, что оба образа принадлежат к одному классу - известному j-му протоколу НСКР.

В качестве недостатка прототипа следует отметить отсутствие точного соответствия между используемой мерой отличия ЦП у от эталонного описания и какой-либо мерой качества речевого сигнала.

Целью заявленного технического решения является разработка способа автоматической оценки качества сигналов с низкоскоростным кодированием речи без преобразования исследуемого ЦП у с НСКР к формату ИКМ, обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала.

Поставленная цель достигается тем, что в известном способе автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающемся в том, что принимают бинарный информационный цифровой поток у объемом N_ЦП бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом N_б бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=N_б, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы y_z, z=1,2,…,Z, определяют значения математического ожидания (МО) m_z по каждому столбцу y_z, формируют вектор значений МО последовательным размещением значений МО m_z, формируют обучающую выборку {y_jw}_W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков y_jw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке е_j _mах качества речевого сигнала, формируют эталонный ЦП у_jэт путем последовательной конкатенации цифровых потоков y_jw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Y_j _эт, строками которой являются последовательно размещенные друг под другом ЦП у_j _эт, вычисляют по эталонной матрице Y_j _эт эталонный вектор значений МО m_{j эт}, вектор МО m оцениваемого потока НСКР последовательно сравнивают с эталонными векторами МО m_j _эт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, в случае принятия решения о использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу С_j _эт, формируют эталонный образ в виде совокупности (m_j _эт, С_j _эт), искажают эталонный ЦП у_j _эт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Р_ош(1) до максимального P_ош(G) значений, формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (m_j _эт, С_{j эт}) и каждого из G образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида е_j=ƒ(ν_j) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (m_j _эт, С_j _эт) путем вычисления значения дивергенции ν_j, получают значение оценки е_j качества сигнала с НСКР путем вычисления степенного многочлена вида e_j=ƒ(ν_j) подстановкой в него известного ранее вычисленного значения ν_j, при выполнении условия ν_j<ν_j (1) значение оценки качества сигнала с НСКР соответствует величине e_j _max максимальной оценки качества речевого сигнала, при выполнении условия ν_j>ν_j (G) значение оценки качества сигнала с НСКР соответствует величине е_j _min минимальной оценки качества речевого сигнала.

Благодаря новой совокупности существенных признаков в заявленном способе обеспечивается автоматическая оценка качества речевых сигналов с низкоскоростным кодированием за счет сравнения образа (m, С) входной реализации у и эталонного образа (m_j _эт, С_j _эт) с помощью меры различия, которая представлена дивергенцией ν_j.

Заявленный способ поясняется чертежами, на которых показаны:

на фиг. 1 - порядок формирования эталонного ЦП у_j _эт;

на фиг. 2 - порядок формирования прямоугольной эталонной информационной матрицы Y_j _эт;

на фиг. 3 - алгоритм оценки качества речевых сигналов с низкоскоростным кодированием;

на фиг. 4 - зависимость значений e_зj разборчивости звуков речи от вероятности битовой ошибки Р_ош в речевых сигналах с низкоскоростным кодирование, сформированных по j-му протоколу LPC-10-2400 (STANAG 4197);

на фиг. 5 - табличная форма представления соответствия (3);

на фиг. 6 - результаты формирования соответствия (3) для j-го протокола LPC-10-2400 (STANAG 4197) при G=8;

на фиг. 7 - графическая зависимость значений e_зj разборчивости звуков речи от дивергенции ν_j между исследуемым и эталонным образами, соответствующих j-му протоколу LPC-10-2400 (STANAG 4197).

Качество речи - величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по пятибалльной шкале в сравнении с эталонным трактом. Одним из важных показателей качества речи является ее разборчивость - относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов. Между различными показателями качества речи установлены функциональные взаимосвязи, что позволяет получать значения требуемых показателей, в том числе и субъективные оценки звучания речи.

Оценку качества речевых сигналов осуществляют при анализе свойств речевого сигнала и его источника, а также для определения эффективности системы передачи речевых сообщений в целом или свойств отдельных ее элементов, в том числе средств НСКР (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с. ). Субъективные методы оценки качества речи требуют участия групп подготовленных экспертов, автоматизация в них касается процессов ввода и статистической обработки результатов артикуляционного тестирования. Объективные методы оценки качества основаны на анализе каких-либо параметров и характеристик исследуемого процесса, что позволяет полностью автоматизировать процесс оценки качества речевых сигналов. В известных методах автоматической оценки качества речи предполагается определение параметров речевого сигнала, представляемого в формате ИКМ, и выбор (с некоторой точностью) соответствующих им значений оценок качества речи. В этом случае на этапе обучения осуществляется построение психофизической шкалы и ее математическое или графическое описание, которое далее используется на этапе исследования принимаемых речевых сигналов (см. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи / Под ред. М.А. Сапожкова. - М.: Радио и связь, 1987. - 168 с.; Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с.).

При исследовании качества речевых сигналов, передаваемых через системы радиосвязи диапазонов ВЧ/ОВЧ с использованием НСКР, рассматривают предположение о нормальных акустических условиях при формировании речевого сигнала по ГОСТ 7153 (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с.). При этом основное внимание уделяется исследованию качества сигналов, формируемых на выходе декодера. Результаты исследований представляют в виде зависимости значений ОКРС от вероятности битовой ошибки Р_ош в ЦП, переданном через канал связи.

Таким образом, автоматическая оценка качества речевых сигналов с низкоскоростным кодированием, передаваемых с помощью средств радиосвязи, обеспечивает снижение вычислительных затрат, что определяет необходимость решения этой технической задачи.

Положительный эффект в предлагаемом способе достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (m_jэт, С_j _эт) j-го класса, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала е_j _mах, при использовании меры различия между ними, в качестве которой выступает дивергенция.

На основе функциональной зависимости е_j=ƒ(ν_j), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции ν_j между образом (m, С) исследуемого ЦП у с НСКР и одним эталонным образом (m_j _эт, С_j _эт) j-го класса, обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ.

Реализация заявленного способа может быть осуществлена следующим образом (см. фиг. 3). До этапа ввода исходных данных целесообразно определить значения параметров ΔT, N_m информационного ЦП у, установить длительность интервала его анализа, определяемую величиной К - числом строк в прямоугольной информационной матрице Y, а также набор значений {N_б}, определить значение J, выбрать значение G и сформировать соответствующее количество обучающих выборок (y_jw}_W.

Далее на подготовительном этапе (в режиме «Обучение») по обучающим выборкам {y_jw} (j=1, 2,…,J) формируют эталонные цифровые потоки {У_jэт}_J путем последовательной конкатенации цифровых потоков {y_Jw}_J(см. фиг. 1). Последние реализуются по j-м протоколам НСКР и имеют максимальное значение e_j _mах оценки качества речевого сигнала. Далее составляют эталонные матрицы {Y_jэт}_J и соответствующие им эталонные описания J известных протоколов НСКР вида (m_j _эт, С_{j эт}) (см. фиг. 2).

Устанавливают пределы изменения значений от минимального значения Р_ош(1), которое соответствует минимально ощутимому снижению качества речевого сообщения, до максимального значения P_ош(G), при котором уже невозможно восстановление речевого сообщения. Количество G уровней (значений) вероятности битовых ошибок определяет точность построения психофизической шкалы и, как следствие, точность оценки качества речевых сигналов с НСКР. Вместе с тем, при использовании экспериментального или экспериментально-аналитического подходов к оценке качества речевых сигналов необходимо выбрать достаточное количество 6≤G≤10 уровней вероятности битовых ошибок, например, на основе метода равномерного приближения. Последний обеспечивает минимизацию наибольшего значения абсолютной ошибки интерполяции (см. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров: Пер. с англ. - М.: Наука, 1970. - 720 с.).

В соответствии со значениями вероятности битовой ошибки в эталонный ЦП у_j _эт вводят фиксированное количество n_ошбитовых ошибок, определяемое выражением

где N_э - количество символов (бит) в эталонном ЦП у_j _эт.

Формируют G цифровых потоков с объемом N_э каждый, в которых ошибочные символы принимают значение «1», а остальные символы имеют значение «0». Распределение ошибочных символов в - равновероятное. Формируют G цифровых потоков , искаженных битовыми ошибками, путем поэлементного сложения эталонного ЦП у_j _эт по модулю 2 с каждым из G цифровых потоков :

где ⊕ - операция сложения по модулю 2.

На основе цифровых потоков , искаженных битовыми ошибками, формируют набор искаженных эталонных матриц . Далее вычисляют соответствующие им векторы значений МО и ковариационные матрицы (см. Аладинский В.А., Кузьминский С.В. Метод формирования признаков распознавания протоколов низкоскоростного кодирования речи // Наукоемкие технологии. - М.: Радиотехника. №12, 2015. - С. 20-25; Патент РФ №2667462, МПК G10L 19/008, Н03М 13/03, опубл. 19.09.2018, бюл. 26). На их основе составляют информационные образы ( ), искаженные битовыми ошибками. После этого осуществляют последовательное сравнение эталонного образа (m_jэт, С_jэт) и образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними:

где , - значения следов матриц А_j, B_jразмерности N; a_nn(j), b_nn(j) - соответствующие элементы диагоналей матриц A_j, В_j;

(⋅)^T - операция транспонирования.

На основе экспериментального (прямого) или экспериментально-аналитического (косвенного) подходов устанавливают соответствие между значениями оценки качества речи и значениями дивергенции :

Экспериментальный подход при формировании соответствия (4) заключается в разделении каждой матрицы на элементы декодировании цифровых потоков с помощью синтезатора приемной части вокодера к формату ИКМ и оценке качества этих речевых сигналов, подвергнутых искажению в канале связи. Оценку осуществляют на основе какого-либо известного субъективного либо объективного методов, например, PESQ (см. Recommendation ITU-T P.862. Perceptual Evaluation of Speech Quality. Geneva, 2001.-30 p.).

Экспериментально-аналитический (косвенный) подход реализуется при наличии априорных сведений о функциональной зависимости е_j=ƒ_j(P_ош) значений оценки качества речевых сигналов, синтезируемых в приемной части вокодера в соответствии с j-м протоколом НСКР, которые приведены в стандартах (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.) или представлены разработчиками (см. Бабкин В.В. Защита от ошибок и интерполяция потерь пакетов в низкоскоростных речевых кодеках // Электросвязь, №11, 2009. - С.47-49.) от вероятности битовой ошибки Р_ош. Зависимость е_j=f_j(P_ош) может быть представлена в графической или аналитической формах, что позволяет получить G значений оценки качества речи при известных величинах Далее осуществляют интерполяцию полученного в (4) соответствия из G сопоставленных друг другу значений дивергенции и оценок качества речи с помощью многочлена наименьшей степени. В результате получают (одним из известных способов) интерполяционную формулу степени не более (G-1) вида:

где a_0j - свободный член; - коэффициент степенного многочлена для j-го протокола НСКР.

Регистрируют полученные результаты и выводят сообщение «Обучение завершено».

В режиме «Оценка качества речевых сигналов» рассматривают матрицу Y (подход распространяется и на подобные ей матрицы Y_j _эт, ) каксистему случайных величин (СВ). Текущий символ у_kz (i), i=1,2,…, I - порядковый номер элемента (символа) алфавита случайной величины объемом I, которой является дискретной случайной величиной с объемом алфавита I=2 и принимает значение 1 при i=1 или 0 при i=2.

Определяют численные характеристики системы СВ Y={y₁, y₂, …, y_n, …, y_z, …, y_Z), где y_z={y_lz,y_2z,…,y_kn,…,y_kz,…,y_Kz) - столбец исследуемой матрицы Y, которыми являются значения МО m и ковариационная матрица С.

Вычисляют значение МО m_z столбца y_z, состоящего из К двоичных символов y_kz, по следующей формуле (см. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и ее инженерные приложения. - М.: Наука, 1988. - 480 с. - ISBN 5-02-013748-0):

где p_z(i) - вероятность появления i-го значения y_kz(i) в столбце y_z.

Так как у_kz(2)=0, то m_z=1⋅p_z(1)+0⋅p_z(2)=p_z(1). Вычисляют вероятность p_z(1) появления значения 1 в y_z по формуле:

где S_z(1) - количество символов y_kz со значением 1 в y_z.

Вычисляют последовательно значения МО по столбцам y_z матрицы Y, формируют набор

Определяют ковариационную матрицу С размерности Z, которая включает значения коэффициента ковариации

где М[⋅] - математическая операция вычисления МО; - столбцы (векторы), содержащие центрированные СВ:

n, z - порядковые номера столбцов у_n и y_z СВ Y;

m_n, m_z - столбцы (векторы) размерности К, содержащие только значения m_n, m_z соответственно.

Составляют образ входного информационного ЦП у с НСКР, описываемого набором (m, С).

Проверяют гипотезы о том, что входной информационный ЦП у сформирован по одному из J заданных (известных) протоколов НСКР. При подтверждении одной из гипотез считают, что при формировании ЦП у применен j-й протокол НСКР, в противном случае выводят сообщение «Протокол НСКР: не установлен, оценка качества: нет» и прекращают оценку качества речевого сигнала.

Вычисляют по формуле (3) значения дивергенции ν_j между образом ЦП у, представленным набором (m, С), и эталонным образом (m_j _эт, С_j _эт).

Считают, что при выполнении условия ν_j<ν_j (1) значение оценки качества сигнала с НСКР соответствует максимальной оценке качества речевого сигнала е_j _mах. В противном случае, при выполнении условия ν_j>ν_j (G), значение оценки качества сигнала с НСКР соответствует минимальной величине e_j _min. При невыполнении рассмотренных условий рассчитывают по найденному значению дивергенции ν_j согласно (5) значение е_j оценки качества.

Выводят сообщение «Протокол НСКР: j-й, оценка качества: е_j». После этого завершают оценку качества сигнала с низкоскоростным кодированием.

Имитационное моделирование заявленного способа автоматической оценки качества речевых сигналов с низкоскоростным кодированием проведено на примере исследования сигналов, сформированных на основе известного протокола НСКР LPC-10-2400 (STANAG 4197), который широко применяется на линиях радиосвязи диапазона высоких частот. По имеющейся обучающей выборке {y_jw}_W был сформирован эталонный ЦП у_jэт, составлена эталонная матрица y_jэт и соответствующее эталонное описание вида (m_jэт, С_jэт)

В настоящее время известны данные о зависимости значений e_зj разборчивости звуков речи от вероятности битовой ошибки Р_ош в речевых сигналах с низкоскоростным кодированием (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.), сформированных по протоколу LPC-10-2400 (STANAG 4197). Последние приведены в графической форме (см. фиг. 4). В режиме «Обучение» был реализован экспериментально-аналитический (косвенный) подход для G=8, в результате чего получены значения в процентах оценки качества речи при выбранных величинах (см. фиг. 4).

Для формирования соответствия вида (4) из эталонного ЦП у_j _эт на основе выражений (1) и (2) и G=8 сформированы цифровые потоки искаженные битовыми ошибками, и соответствующие им матрицы На основе матриц составлены искаженные образы ( ) и реализовано вычисление (выражение 3) соответствующих значений дивергенции между эталонным и искаженными образами.

Выполнена интерполяция полученного соответствия (4), представленного строками 2 и 3 (см. фиг. 4). В результате расчетов получена интерполяционная формула вида

в которой члены со степенями >3 не приведены ввиду малости величин Последнее косвенно указывает на избыточность выбранного значения G=8. В графической форме зависимость вида (11) приведена на фиг. 7. Представленная интерполяционная формула позволяет оценивать качество речевых сигналов с низкоскоростным кодированием по протоколу LPC-10-2400 (STANAG 4197) с точностью не хуже 5%, что было установлено при исследовании цифровых потоков, сформированных по протоколу LPC-10-2400 (STANAG 4197), с известными значениями e_зj качества речевых сигналов.

Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающийся в том, что принимают бинарный информационный цифровой поток (ЦП) у объемом N_цп бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом N_б бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=N_б, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы y_z, z=1,2,…, Z, определяют значения математического ожидания (МО) m_z по каждому столбцу y_z, формируют вектор значений МО m=(m₁,m₂,…,m_z,…,m_z) последовательным размещением значений МО m_z, формируют обучающую выборку {y_jw}_W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков y_jw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке е_jmах качества речевого сигнала, формируют эталонный ЦП у_j _эт путем последовательной конкатенации цифровых потоков y_jw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Y_jэт, строками которой являются последовательно размещенные друг под другом ЦП у_jэт, вычисляют по эталонной матрице Y_jэтэталонный вектор значений МО m_jэт, вектор МО m оцениваемого потока низкоскоростного кодирования речи (НСКР) последовательно сравнивают с эталонными векторами МО m_jэт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, отличающийся тем, что в случае принятия решения об использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае дополнительно на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу С_jэт, формируют эталонный образ в виде совокупности (m_j _эт, С_j _эт), искажают эталонный ЦП у_jэт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Р_ош(1) до максимального Р_ош(G) значений; формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (m_j _эт, С_j _эт) и каждого из G образов (), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида е_j=ƒ(ν_j) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (m_j _эт, С_j _эт) путем вычисления значения дивергенции ν_j, получают значение оценки е_jкачества сигнала с НСКР путем вычисления степенного многочлена вида е_j=ƒ(ν_j) подстановкой в него известного ранее вычисленного значения ν_j, при выполнении условия ν_j<ν_j (1) значение оценки качества сигнала с НСКР соответствует величине e_jmax максимальной оценки качества речевого сигнала, при выполнении условия ν_j>ν_j(G) значение оценки качества сигнала с НСКР соответствует величине e_{j min}минимальной оценки качества речевого сигнала.

Изобретение относится к акустике. Аудиосистема содержит устройство воспроизведения первичного канала для воспроизведения первичного аудиосигнала, сгенерированного на основании аудиосигнала левого канала и/или аудиосигнала правого канала; схему первого вторичного сигнала для генерации первого вторичного аудиосигнала на основании аудиосигнала левого канала и аудиосигнала правого канала и первое устройство воспроизведения с управлением звуковым полем, подключенное к схеме первого вторичного сигнала и выполненное с возможностью воспроизведения первого вторичного аудиосигнала; причем между воспроизведением первого вторичного аудиосигнала и воспроизведением первичного аудиосигнала имеется первый период задержки воспроизведения; причем первый вторичный аудиосигнал, воспроизводимый первым устройством воспроизведения с управлением звуковым полем, не подвергается микшированию с первичным аудиосигналом с помощью первой схемы микширования аудиосигналов, причем схема первого вторичного сигнала содержит: первый вычитающий операционный усилитель; первый делитель мощности, подключенный к первому вычитающему операционному усилителю и расположенный после него; первый фильтр верхних частот, подключенный к первому делителю мощности и расположенный после него; первую цифровую схему задержки, подключенную к первому фильтру верхних частот и расположенную после него; и первый усилитель, подключенный к первой цифровой схеме задержки и расположенный после нее.

Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации // 2754497

Изобретение относится к области цифровой вычислительной техники, в частности к передаче речевых файлов по зашумленному каналу. Заявленные способ и устройство могут найти применение при передаче речевых команд, синтезируемых роботом, когда разборчивость выходит на передний план.

Способ индивидуальной коррекции параметров технических каналов передачи образовательного контента, воспринимаемого органами слуха // 2752755

Изобретение относится к области акустики. Способ индивидуальной коррекции параметров технических каналов передачи образовательного контента, воспринимаемого органами слуха, заключатся в генерации акустических колебаний.

Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи // 2752600

Изобретение относится к области вычислительной техники для обработки аудиосигналов. Технический результат заключается в уменьшении искажения звукового образа при отличии конфигурации установленных динамиков от стандартной конфигурации.

Управление полосой частот в кодерах и/или декодерах // 2752520

Изобретение относится к средствам для управления полосой частот в кодерах и декодерах. Технический результат заключается в повышении эффективности кодирования.

Усовершенствованный квантователь // 2752127

Изобретение относится к области обработки аудиоданных. Технический результат заключается в повышении производительности обработки аудиоданных.

Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования // 2751150

Изобретение относится к области аудиодекодирования. Технический результат заключается в снижении искажения компонента частотного диапазона, кодируемого с малым числом битов во временной области.

Кодирование и декодирование положений спектральных пиков // 2750644

Изобретение относится к области кодирования/декодирования сегмента аудиосигнала. Технический результат заключается в снижении потребления битов при кодировании спектральных пиков.

Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером // 2749349

Изобретение относится к средствам для кодирования и декодирования аудиосцены. Технический результат заключается в повышении эффективности кодирования.

Способ распознавания новых протоколов низкоскоростного кодирования // 2748935

Изобретение относится к области информационных технологий, а именно к области цифровой связи. Технический результат заключается в снижении вероятности ложной тревоги и, как следствие, повышении достоверности распознавания (вероятности правильного распознавания) новых протоколов (НСКР).

Способ и система аутентификации пользователя с помощью голосовой биометрии // 2747935

Изобретение относится к области вычислительной техники для аутентификации пользователя с помощью голосовой биометрии. Технический результат заключается в повышении надежности аутентификации пользователя с помощью голосовой биометрии и устойчивости к атакам.