Патенты автора Нехай Илья Владимирович (RU)

Изобретение относится к средствам распознавания именованных сущностей из неразмеченного текстового корпуса. Технический результат заключается в повышении эффективности распознавания и разметки именованных сущностей в текстах. Выбирают обучающий набор текстов на естественном языке. Извлекают процессором соответствующего набора признаков для каждой категории именованных сущностей. Обучают процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей. Извлекают процессором токенов из неразмеченного текста. Формируют процессором набора атрибутов для каждого токена неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа. Определяют возможные синтаксические связи по меньшей мере в одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов. Формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов каждого токена. Классифицируют процессором каждый токен по меньшей мере в одну из категорий на основании модели классификатора и набора атрибутов токена. Формируют процессором размеченное представление по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям. 3 н. и 10 з.п. ф-лы, 12 ил.

 


Наверх