Патенты автора Шулипа Андрей Константинович (RU)

СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ // 2530314

Изобретение относится к области информационных технологий, реализующих интерфейс между человеком и компьютером, а именно к сегментации (диаризации) или разделению дикторов в аудио-потоке. Технический результат заключается в повышении точности распознавания диктора для диалога в телефонном канале. Выделяют речевые сегменты. Рассчитывают акустические признаки MFCC вектора. Проецируют каждый речевой сегмент на пространство EV собственных голосов размерности 10 с получением набора Y-векторов. Определяют центры кластеризации C1 и C2 Y-векторов. Осуществляют дискриминативную кластеризацию путем расчета параметров плоскостей H1, H2 и приближенного определения областей концентрации Y-векторов, однородных по дикторской информации. Полученные данные о речевых сегментах используют для инициализации VB диаризации на основе вариационно-байсовского анализа. Получают разметки сегментов по дикторам на всем произнесении, на основе чего производят коррекцию центров кластеризации C1 и C2, при этом операции дискриминативной кластеризации, вариационно-байсовского анализа и коррекции центров кластеризации последовательно осуществляют в несколько итерационных EV-VB этапов. На каждом этапе итераций осуществляют анализ полной сегментации по дикторам и при отсутствии изменений сегментации на итерации прекращают, после чего путем пересегментации Витерби получают финальную сегментацию, представляющую собой табличное соответствие между речевыми сегментами входного сигнала и индексом диктора. 4 ил., 1 табл.