Патенты автора Новицкий Валерий Игоревич (RU)

Изобретение относится к области многоэтапного распознавания именованных сущностей на основе морфологических и семантических признаков текстов на естественном языке. Техническим результатом является достижение высокой точности и/или полноты распознавания именованных сущностей в текстах на естественном языке в сочетании с приемлемой скоростью распознавания за счет двухэтапного применения различающихся по глубине методов анализа текста в зависимости от результата предыдущего этапа. Один из примеров способа включает: лексико-морфологический анализ текста на естественном языке, содержащего множество токенов, где каждый токен содержит по крайней мере одно слово естественного языка; определение на основе лексико-морфологического анализа одного или более лексических значений и грамматических значений, связанных с каждым токеном в множестве токенов; вычисление для каждого токена в множестве токенов одной или более функций классификатора с использованием лексических и грамматических значений, ассоциированных с токеном, причем значение каждой функции классификатора указывает на оценку степени ассоциации токена с категорией именованных сущностей; синтактико-семантический анализ по крайней мере части текста на естественном языке для получения множества семантических структур, представляющих часть текста на естественном языке; и интерпретация семантических структур с использованием набора продукционных правил для определения, для одного или более токенов, входящих в часть текста на естественном языке, оценки степени ассоциации токена с категорией именованных сущностей. 3 н. и 17 з.п. ф-лы, 16 ил.

Изобретение относится к средствам обработки естественного языка. Технический результат заключается в повышении эффективности решения задач обработки текстов на естественном языке. Указанный результат достигается за счет выполнения этапов способа выявления словосочетаний в текстах на естественном языке. При этом используют вычислительное устройство, с помощью которого выполняют семантико-синтаксический анализ текста на естественном языке для получения множества семантических структур. Далее формируют исходный список сочетаний слов с учетом отношений, определенных семантическими структурами. Составляют список словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов, где применение эвристического фильтра основано на использовании метрики качества, представляющей функцию от частот семантических классов и частоты отношений между словами в составе словосочетания. Используют список словосочетаний для выполнения операции обработки естественного языка. 3 н. и 22 з.п. ф-лы, 15 ил.

 


Наверх