Распознавание смешанной речи - заявка 2016137972 на патент на изобретение в РФ

1. Способ для распознавания смешанной речи от источника, содержащий:
обучение первой нейронной сети для распознавания речевого сигнала, произнесенного говорителем с более высоким уровнем речевой характеристики, из выборки смешанной речи;
обучение второй нейронной сети для распознавания речевого сигнала, произнесенного говорителем с более низким уровнем речевой характеристики, из выборки смешанной речи; и
декодирование выборки смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации совместной вероятности наблюдения упомянутых двух речевых сигналов.
2. Способ по п. 1, содержащий декодирование путем учета вероятности, что конкретный кадр является точкой коммутации говорителей.
3. Способ по п. 2, содержащий компенсацию для точки коммутации, появляющейся в процессе декодирования, на основе вероятности коммутации, оцененной из другой нейронной сети.
4. Способ по п. 1, где выборка смешанной речи содержит один аудиоканал, причем упомянутый один аудиоканал генерируется микрофоном.
5. Способ по п. 1, где речевая характеристика содержит одно из:
мгновенной энергии в кадре выборки смешанной речи;
энергии; и
высоты тона.
6. Способ по п. 1, содержащий:
обучение третьей нейронной сети для предсказания коммутации речевой характеристики;
предсказание, коммутируется ли энергия из одного кадра на следующий кадр; и
декодирование выборки смешанной речи на основе упомянутого предсказания.
7. Способ по п. 6, содержащий взвешивание вероятности коммутации энергии в кадре, следующем после кадра, в котором предсказана коммутация энергии.
8. Система распознавания смешанной речи от источника, причем система содержит:
первую нейронную сеть, содержащую первое множество взаимосвязанных систем; и
вторую нейронную сеть, содержащую второе множество взаимосвязанных систем,
причем каждая взаимосвязанная система содержит:
обрабатывающий блок; и
системную память, причем системная память содержит код, сконфигурированный для инициирования выполнения обрабатывающим блоком:
обучения первой нейронной сети для распознавания более высокого уровня речевой характеристики в первом речевом сигнале из выборки смешанной речи;
обучения второй нейронной сети для распознавания более низкого уровня речевой характеристики во втором речевом сигнале из выборки смешанной речи; и
декодирования выборки смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации совместной вероятности наблюдения упомянутых двух речевых сигналов.
9. Система по п. 8, содержащая код, сконфигурированный для декодирования выборки смешанной речи путем учета вероятности, что конкретный кадр является точкой коммутации речевой характеристики.
10. Система по п. 8, содержащая код, сконфигурированный для инициирования выполнения обрабатывающим блоком компенсации точки коммутации, появляющейся в процессе декодирования, на основе вероятности, оцененной из нейронной сети.
11. Система по п. 8, где первая нейронная сеть и вторая нейронная сеть содержат глубокие нейронные сети.
12. Система по п. 8, где речевая характеристика содержит выбранное одно из:
высоты тона, энергии и мгновенной энергии в кадре выборки смешанной речи.
13. Система по п. 8, содержащая код, сконфигурированный для инициирования выполнения обрабатывающим блоком:
обучения третьей нейронной сети для предсказания коммутации энергии;
предсказания, коммутируется ли энергия из одного кадра на следующий кадр; и
декодирования выборки смешанной речи на основе упомянутого предсказания.
14. Система по п. 13, содержащая взвешивание вероятности коммутации энергии в кадре, следующем после кадра, в котором предсказана коммутация энергии.
15. Одно или несколько считываемых компьютером запоминающих устройств для хранения считываемых компьютером команд, содержащий код, который при его выполнении одним или несколькими обрабатывающими устройствами инициирует выполнение этими одним или несколькими обрабатывающими устройствами:
обучения первой нейронной сети для распознавания более высокого уровня речевой характеристики в первом речевом сигнале из выборки смешанной речи, содержащей один аудиоканал;
обучения второй нейронной сети для распознавания более низкого уровня речевой характеристики во втором речевом сигнале из выборки смешанной речи; и
обучения третьей нейронной сети для оценки вероятности коммутации для каждого кадра; и
декодирования выборки смешанной речи первой нейронной сетью, второй нейронной сетью и третьей нейронной сетью путем оптимизации совместной вероятности наблюдения упомянутых двух речевых сигналов, причем упомянутая совместная вероятность означает вероятность, что конкретный кадр является точкой коммутации речевой характеристики.
Наверх