Патенты автора ХАРЛАМОВ Александр Александрович (RU)

Изобретение относится к области информационных технологий. Техническим результатом является ускорение процесса сравнения текстов. В способе автоматизированной семантической классификации текстов на естественном языке представляют каждый классифицируемый текст в цифровой форме для последующей обработки. Индексируют текст, получая элементарные единицы первого-пятого уровней. Выявляют частоты встречаемости единиц четвертого уровня, каждая из которых является семантически значимым объектом или атрибутом, и частоты встречаемости семантически значимых отношений, связывающих семантически значимые объекты, а также объекты и атрибуты. Формируют из триад, являющихся единицами пятого уровня, семантическую сеть. Перенормируют частоты встречаемости в смысловой вес единиц четвертого уровня. Ранжируют единицы четвертого уровня по смысловому весу путем сравнения его с пороговым значением и те, которые имеют вес ниже порогового значения. Выявляют степени пересечения семантических сетей текста и текстовых выборок. Выбирают в качестве класса для текста предметные области, степени пересечения семантической сети которых с семантической сетью текста больше порога. 5 з.п. ф-лы, 2 ил., 24 табл.

Изобретение относится к области информационных технологий. Технический результат заключается в ускорении процесса сравнения текстов. В предложенном способе: представляют два сравниваемых текста в цифровой форме для последующей обработки; осуществляют индексацию текстов, получая элементарные единицы первого-пятого уровней. Выявляют частоты встречаемости элементарных единиц четвертого уровня, каждая из которых является семантически значимым объектом, или атрибутом; и частоты встречаемости семантически значимых отношений, связывающих семантически значимые объекты, а также семантически значимые объекты и атрибуты. Сохраняют сформированные элементарные единицы второго-пятого уровней, а также полученные индексы вместе со ссылками на конкретные предложения данного текста; формируют из триад, являющихся элементарными единицами пятого уровня, семантическую сеть, ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения; выявляют для двух сравниваемых текстов степень пересечения их семантических сетей. 3 з.п. ф-лы, 2 ил. 26 табл.

 


Наверх