Способ автоматизированного семантического сравнения текстов на естественном языке



Способ автоматизированного семантического сравнения текстов на естественном языке
Способ автоматизированного семантического сравнения текстов на естественном языке

 


Владельцы патента RU 2538303:

ХАРЛАМОВ Александр Александрович (RU)

Изобретение относится к области информационных технологий. Технический результат заключается в ускорении процесса сравнения текстов. В предложенном способе: представляют два сравниваемых текста в цифровой форме для последующей обработки; осуществляют индексацию текстов, получая элементарные единицы первого-пятого уровней. Выявляют частоты встречаемости элементарных единиц четвертого уровня, каждая из которых является семантически значимым объектом, или атрибутом; и частоты встречаемости семантически значимых отношений, связывающих семантически значимые объекты, а также семантически значимые объекты и атрибуты. Сохраняют сформированные элементарные единицы второго-пятого уровней, а также полученные индексы вместе со ссылками на конкретные предложения данного текста; формируют из триад, являющихся элементарными единицами пятого уровня, семантическую сеть, ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения; выявляют для двух сравниваемых текстов степень пересечения их семантических сетей. 3 з.п. ф-лы, 2 ил. 26 табл.

 

Область техники, к которой относится изобретение

Настоящее изобретение относится к области информационных технологий, а именно к способу автоматизированного семантического сравнения текстов на естественном языке.

Уровень техники

Существуют различные способы автоматизированного семантического (т.е. смыслового) сравнения текстов на естественных языках.

Семантическое сравнение текстов на естественном языке нельзя осуществлять «в лоб», поскольку сравнивать в данном случае нужно не наличие конкретных слов, а тот смысл, который стоит за целыми предложениями и даже абзацами или разделами. Поэтому обычно семантическое сравнение текстов предваряют семантической индексацией этих текстов, которая осуществляется различными способами. При этом важное значение имеет устранение семантической неоднозначности этих текстов.

Такие способы семантической индексации текстов для их последующего сравнения с устранением семантической неоднозначности описаны, например, в патенте РФ №2242048 (опубл. 10.12.2004), в патентах США №№6871199 (опубл. 22.03.2005), 7024407 (опубл. 04.04.2006) и 7383169 (опубл. 03.06.2008), в заявках на патент США №№2007/0005343 и 2007/0005344 (обе опубл. 04.01.2007), 2008/0097951 (опубл. 24.04.2008), в выложенных заявках Японии №№05-128149 (опубл. 25.05.1993), 06-195374 (опубл. 15.07.1994), 10-171806 (опубл. 26.06.1998) и 2005-182438 (опубл. 07.07.2005), в заявке ЕПВ №0853286 (опубл. 15.07.1998).

Наиболее близким к заявленному изобретению можно считать способ автоматизированной семантической индексации текста на естественном языке, раскрытый в патенте РФ №2399959 (опубл. 20.09.2010). В этом способе текст в цифровой форме сегментируют на элементарные единицы первого уровня (слова); формируют для каждой элементарной единицы первого уровня (слова) элементарную единицу второго уровня (нормализованную словоформу); сегментируют текст в цифровой форме на предложения, соответствующие участкам индексируемого текста; выявляют в тексте в процессе лингвистического анализа элементарные единицы третьего уровня (устойчивые словосочетания); в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде выявляют в каждом из сформированных предложений элементарные единицы четвертого уровня (семантически значимый объект и его атрибут) и семантически значимые отношения между выявленными семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений множество элементарных единиц пятого уровня (триад); индексируют на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты, а также атрибуты по отдельности и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут»; сохраняют в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.

Недостатком данного способа является отсутствие ранжирования сформированных элементарных единиц четвертого уровня по степени их релевантности к тексту, что приводит к неоправданно большому объему вычислений, связанному с необходимостью использовать для дальнейшей обработки весь сформированный индекс.

Раскрытие изобретения

Цель настоящего изобретения состоит в расширении арсенала способов семантического сравнения текстов на естественных языках за счет ускорения процесса сравнения текстов.

Достижение этой цели и получение указанного технического результата обеспечиваются в настоящем изобретении посредством способа автоматизированного семантического сравнения текстов на естественном языке, заключающегося в том, что: представляют два сравниваемых текста в цифровой форме для последующей автоматической и(или) автоматизированной обработки; осуществляют индексацию этих текстов в цифровой форме, получая: элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова, элементарные единицы второго уровня, каждая из которых представляет собой нормализованную словоформу, элементарные единицы третьего уровня, каждая из которых представляет собой устойчивое словосочетание в упомянутом тексте, элементарные единицы четвертого уровня, каждая из которых является семантически значимым объектом и атрибутом, и элементарные единицы пятого уровня, каждая из которых представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо из семантически значимого объекта и атрибута и связывающего их семантически значимого отношения; выявляют частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений; сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с выявленными частотами встречаемости элементарных единиц четвертого уровня и семантически значимых отношений, а также полученные индексы вместе со ссылками на конкретные предложения данного текста; формируют из триад семантическую сеть таким образом, что первая элементарная единица четвертого уровня последующей триады связывается с такой же второй элементарной единицей четвертого уровня предыдущей триады; осуществляют в процессе итеративной процедуры перенормировку частот встречаемости в смысловой вес элементарных единиц четвертого уровня, являющихся вершинами семантической сети, таким образом, что элементарные единицы четвертого уровня, связанные в сети с большим числом элементарных единиц четвертого уровня с большой частотой встречаемости, увеличивают свой смысловой вес, а прочие элементарные единицы четвертого уровня его равномерно теряют; ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением; удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения; сохраняют в памяти оставшиеся элементарные единицы четвертого уровня с весом выше порогового, а также семантически значимые отношения между оставшимися элементарными единицами четвертого уровня; выявляют для двух сравниваемых текстов степень пересечения их семантических сетей как по вершинам, так и по связям между этими вершинами с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей, причем степень пересечения семантических сетей двух сравниваемых текстов является величиной, характеризующей семантическое подобие этих текстов.

Особенность способа по настоящему изобретению состоит в том, что индексацию осуществляют в процессе выполнения следующих этапов: сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова; сегментируют по графематическим правилам текст в цифровой форме на предложения; формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу; подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными; выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимые объекты и атрибуты - элементарные единицы четвертого уровня; для каждой элементарной единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом и соответствующей анафорической ссылкой при ее наличии в индексируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент; сохраняют в памяти каждый семантически значимый объект и атрибут; выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст; выявляют на всем тексте частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений; сохраняют в памяти каждое выявленное семантически значимое отношение вместе с присвоенным ему типом; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня; индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.

Еще одна особенность способа по настоящему изобретению состоит в том, что степень пересечения двух семантических сетей, принадлежащих двум сравниваемым текстам, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей.

При этом осуществляют этапы, на которых: выбирают в качестве базовой сети ту из двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже порогового значения осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой; находят для каждой вершины базовой сети в сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом или тем же самым атрибутом; вычисляют для каждой найденной вершины в каждой из базовой и сравниваемой сетей величины всех связанных с данной вершиной триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад, а угол между сторонами пропорционален весу семантически значимого отношения этой триады; выбирают для каждой пары триад, связанных с парой конкретных вершин в базовой и сравниваемой сетях, меньшую из вычисленных величин в качестве степени пересечения триад в базовой и сравниваемой сетях; суммируют для каждой из вершин, связанных с данной вершиной, все выбранные вычисленные величины, получая степень пересечения для данной пары вершин базовой и сравниваемой сетей; нормируют найденную сумму на число семантически значимых объектов и атрибутов, связанных с данной вершиной в той из базовой и сравниваемой сетей, которая содержит больше вершин, связанных с данной вершиной; суммируют нормированные суммы по всем вершинам той из базовой и сравниваемой сетей, которая содержит больше вершин; нормируют полученную сумму на число оставшихся в этой сети элементарных единиц четвертого уровня, получая степень пересечения семантических сетей сравниваемых текстов.

Краткое описание чертежей

Настоящее изобретение поясняется далее описанием конкретного примера его осуществления и прилагаемыми чертежами.

На Фиг.1 приведена условная блок-схема, поясняющая заявленный способ.

На Фиг.2 приведена блок-схема, поясняющая предпочтительный способ индексации текста.

Подробное описание изобретения

Способ по настоящему изобретению может быть реализован практически в любой вычислительной среде, к примеру на персональном компьютере, подключенном к внешним базам данных. Этапы осуществления способа иллюстрируются на Фиг.1.

Все дальнейшие пояснения даются в применении к русскому языку, который является одним из самых высокофлективных языков, хотя предложенный способ применим к семантическому сравнению текстов на любых естественных языках.

Прежде всего, каждый из подлежащих семантическому сравнению текстов необходимо представить в электронной форме для последующей автоматизированной обработки. Этот этап на Фиг.1 условно обозначен ссылочной позицией 1 и может быть выполнен любым известным способом, например сканированием текста с последующим распознаванием с помощью общеизвестных средств типа ABBYY FineReader. Если же текст поступает на индексацию из электронной сети, к примеру из Интернета, то этап его представления в электронной форме выполняется заранее, до размещения этого текста в сети.

Специалистам должно быть понятно, что операции этого и последующих этапов осуществляются с запоминанием промежуточных результатов, например, в оперативном запоминающем устройстве (ОЗУ).

Преобразованный в электронную форму текст поступает на обработку, в процессе которой осуществляется индексация. Эта индексация (этап 2 на Фиг.1) может производиться так же, как это раскрыто, например, в упомянутом в патенте РФ №2399959 или в заявке на патент США №2007/0073533 (опубл. 29.03.2007). В процессе этой индексации получают элементарные единицы текста разных уровней. Элементарные единицы первого уровня включают в себя, по меньшей мере, слова; каждая из элементарных единиц второго уровня представляет собой нормализованную словоформу; каждая из элементарных единиц третьего уровня представляет собой последовательность следующих друг за другом слов в обрабатываемом тексте; каждая из элементарных единиц четвертого уровня является семантически значимым объектом, или атрибутом; каждая из элементарных единиц пятого уровня представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо семантически значимый объект и его атрибут и связывающее их семантически значимое отношение.

Предпочтительно, однако, индексировать текст с помощью способа, заявленного в заявке на патент РФ №2012150734 (приоритет от 27.11.2012) и проиллюстрированного на Фиг.2. В этом способе текст в цифровой форме сначала сегментируется на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова. В упомянутом патенте РФ №2399959 эти элементарные единицы первого уровня именуются токенами (token). Токеном может быть любой текстовый объект из следующего множества: слова, состоящие каждое из последовательности букв и, возможно, дефисов; последовательность пробелов; знаки препинания; числа. Иногда сюда же относят такие последовательности символов как A300, i150b, и т.п. Выделение токенов всегда осуществляется по достаточно простым правилам, например, как в упомянутом патенте РФ №2399959. На Фиг.2 этот этап условно обозначен ссылочной позицией 21.

Вслед за этим на этапе 22 (Фиг.2) сегментируют индексируемый текст в цифровой форме на предложения, соответствующие участкам данного текста. Такую сегментацию проводят по графематическим правилам. К примеру, самым простым правилом для выделения предложений является: «Предложением является последовательность токенов, начинающаяся с заглавной буквы и заканчивающаяся точкой».

Далее для каждой элементарной единицы первого уровня (для каждого токена), представляющей собой слово, на основе морфологического анализа формируют соответствующую элементарную единицу второго уровня, представляющую собой нормализованную словоформу, именуемую далее леммой. К примеру, для слова «иду» нормализованной словоформой будет «идти», для слова «красивого» нормализованной словоформой будет «красивый», а для слова «стеной» нормализованная словоформа - «стена». Кроме того, для каждой словоформы указывается часть речи, к которой относится данное слово, и его морфологические характеристики. Естественно, что для разных частей речи эти характеристики различны. К примеру, для существительных и прилагательных это род (мужской - женский - средний), число (единственное - множественное), падеж; для глаголов это вид (совершенный - несовершенный), лицо, число (единственное - множественное); и т.д. Таким образом, для заданного слова его нормализованная словоформа (лемма) + морфологические характеристики, в том числе часть речи, являются его морфом. Одно и то же слово может иметь несколько морфов. Например, слово «стекло» имеет два морфа - один для существительного среднего рода и один для глагола в прошедшем времени. Этот этап условно обозначен на Фиг.2 ссылочной позицией 23.

Следующий этап, условно обозначенный на Фиг.2 ссылочной позицией 24, состоит в том, что для каждой из упомянутых элементарных единиц первого уровня в упомянутом тексте подсчитывают частоту встречаемости. Иначе говоря, определяют, сколько раз каждое слово встречается в обрабатываемом тексте. Эту операцию осуществляют автоматически, например, простым подсчетом частоты встречаемости каждого токена, либо так, как это описано в патенте РФ №2167450 (опубл. 20.05.2001), либо в патенте США №6189002 (опубл. 13.02.2001). Одновременно с подсчетом частоты встречаемости находят для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов в первое появление этой последовательности слов и в последующие их появления. Если эти разности для первого появления данной последовательности слов и для нескольких последующих их появлений остаются неизменными, такую последовательность слов, следующих друг за другом в данном тексте (т.е. элементарных единиц второго уровня), объединяют в элементарные единицы третьего уровня, представляющие собой устойчивые словосочетания.

Далее, на следующем этапе, обозначенном на Фиг.2 ссылочной позицией 25, с целью выявления семантически значимых объектов и атрибутов выполняют многоступенчатый семантико-синтаксический анализ. Такой многоступенчатый семантико-синтаксический анализ выполняют путем обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде. Такой средой может быть, например, лингвистическая среда, упомянутая в вышеуказанной заявке на патент США №2007/0073533 либо в вышеуказанных патентах РФ №2242048 и РФ №2399959, либо любая иная лингвистическая среда, определяющая соответствующие правила, которые позволяют устранять синтаксические и семантические неоднозначности слов и выражений реального текста. Лингвистические и эвристические правила в выбранной среде именуются далее правилами.

Выявление семантически значимых объектов и атрибутов, которые считаются элементарными единицами четвертого уровня, производится в предложении на множестве элементарных единиц первого, второго и(или) третьего уровней.

Для каждого семантически значимого объекта, или атрибута, т.е. элементарной единицы четвертого уровня с присвоенными им типами, находят соответствующую ему анафорическую ссылку (если она есть). Например, в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» анафорической ссылкой к слову «механика» будет местоимение «которая», тогда как слово «механика» будет антецедентом для этой анафоры, и еще, анафорической ссылкой к слову «механическое» будет местоимение «это», тогда как слово «механическое» будет антецедентом для этой анафоры. Этот этап нахождения анафорической ссылки условно обозначен на Фиг.2 ссылочной позицией 26. Каждую анафорическую ссылку заменяют на соответствующий ей антецедент. После этого каждый выявленный семантически значимый объект и атрибут сохраняют в соответствующей памяти.

На следующем этапе, обозначенном на Фиг.2 ссылочной позицией 27, выполняют многоступенчатый семантико-синтаксический анализ, с помощью которого на основе элементарных единиц первого, второго, третьего и четвертого уровней находят с помощью упомянутых правил семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами.

На этапе, обозначенном на Фиг.2 ссылочной позицией 28, каждому семантически значимому отношению присваивают соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст. После этого каждое семантически значимое отношение сохраняют в соответствующей памяти вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.

После этого на этапе, обозначенном на Фиг.2 ссылочной позицией 29, выявляют частоты встречаемости семантически значимых объектов и атрибутов, а также частоты встречаемости семантически значимых отношений между семантически значимыми объектами и между семантически значимыми объектами и атрибутами на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 24 для элементарных единиц первого уровня.

На этапе, обозначенном на Фиг.2 ссылочной позицией 30, сохраненные семантически значимые объекты, а также атрибуты и семантически значимые отношения используют для формирования триад. При этом в пределах индексируемого текста для каждого из выявленных семантически значимых отношений, связывающих определенные семантически значимые объекты и атрибуты, формируют множество триад двух типов. Каждая из множества триад первого типа включает семантически значимое отношение и два семантически значимых объекта, которые связываются этим семантически значимым отношением. Каждая из множества триад второго типа включает семантически значимое отношение, один семантически значимый объект, а также его атрибут, которые связываются этим семантически значимым отношением. Если обозначить два семантически значимых объекта через Oi и Oj, а связывающее их семантически значимое отношение через Rij, то каждую из триад первого типа можно условно представить (изобразить) как Oi→Rij→Oj. Каждая из триад второго типа может быть представлена как Oi→Rim→Am, где Am являются соответствующим атрибутом, a Rim связывающее семантически значимый объект и атрибут семантически значимое отношение. В этих записях индексы i, j, m представляют собой целые числа.

Затем на этапе, обозначенном на Фиг.2 ссылочной позицией 31, выполняют индексацию текста. При этом индексируют по отдельности на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.

Для этого на множестве сформированных триад индексируют все семантически значимые объекты и их атрибуты по отдельности с их частотами встречаемости и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут». Сформированные на этапе 30 триады и полученные на этапе 31 индексы вместе со ссылкой на конкретные предложения исходного текста, из которого сформированы эти триады, сохраняют в базе данных (этап 32 на Фиг.2).

Для специалистов очевидно, что упоминавшиеся на отдельных этапах запоминающие устройства могут на деле быть как разными устройствами, так и одним запоминающим устройством достаточного объема. Точно так же отдельные базы данных, упоминавшиеся на соответствующих этапах, могут быть не только физически раздельными базами данных, но и единственной базой данных. Более того, упомянутые запоминающие устройства (памяти) могут хранить ту же самую единственную базу данных, либо хранить по отдельности упомянутые базы данных. Специалистам также понятно, что заявленные в настоящем изобретении способы выполняются в соответствующей вычислительной среде под управлением соответствующих программ, которые записаны на машиночитаемых носителях, предназначенных для непосредственного участия в работе компьютера.

Возвратимся к блок-схеме Фиг.1. На этапе 3 выявляют частоты встречаемости элементарных единиц четвертого уровня (т.е. семантически значимых объектов и атрибутов), а также выявляют частоты встречаемости семантически значимых отношений. Отметим, что сформированные элементарные единицы четвертого уровня сохраняют в базе данных вместе с выявленными частотами встречаемости. Кроме того, сохраняют в базе данных полученные индексы вместе со ссылками на конкретные предложения данного текста.

Затем на этапе 4 в способе по настоящему изобретению формируют семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. При этом в процессе итеративной процедуры осуществляют перенормировку частот встречаемости семантически значимых объектов и атрибутов в смысловой вес семантически значимых объектов и атрибутов, которые являются вершинами семантической сети. Эту перенормировку осуществляют таким образом, что семантически значимые объекты и атрибуты, связанные в сети с большим числом семантически значимых объектов и атрибутов с большой частотой встречаемости, увеличивают свой смысловой вес, а другие семантически значимые объекты и атрибуты его равномерно теряют (этап 5 на Фиг.1).

Далее элементарные единицы четвертого уровня ранжируют по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением (этап 6 на Фиг.1).

Элементарные единицы четвертого уровня со смысловым весом ниже порогового удаляют (этап 7 на Фиг.1). Оставшиеся элементарные единицы четвертого уровня с весом выше порогового сохраняют в памяти (этап 8). Сохраняют в памяти также семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами, оставшимися в семантической сети.

Далее, на этапе 9 выявляют степень пересечения построенных семантических сетей двух подлежащих сравнению текстов и по вершинам, и по связям, учитывая смысловые веса вершин семантических сетей и частоты встречаемости связывающих их семантически значимых отношений. Эта степень пересечения семантических сетей сравниваемых текстов и является характеристикой смыслового подобия указанных текстов.

Степень пересечения двух семантических сетей, сформированных описанным выше способом, принадлежащих двум сравниваемым текстам, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей. В принципе, это вычисление может проводиться различными известными специалистам методами.

Предпочтительно степень пересечения может вычисляться как сумма пересечений элементарных единиц пятого уровня этих двух сетей. Для этого выбирают в качестве базовой сети ту из двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже порогового значения (см. этап 7 на Фиг.1) осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой. Для каждой вершины базовой сети находят в сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом или тем же самым атрибутом. Для каждой найденной вершины в каждой из базовой и сравниваемой сетей вычисляют величины всех связанных с данной вершиной триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад. Это вычисление площади можно осуществлять как нормированное на 100% скалярное произведение на векторах c ¯ i и c ¯ j , где вектор c ¯ i соответствует первому семантически значимому объекту или атрибуту элементарной единицы пятого уровня, вектор c ¯ j соответствует второму семантически значимому объекту либо атрибуту элементарной единицы пятого уровня, а угол между векторами ci, и cj, равный wij, пропорционален частоте встречаемости семантически значимого отношения между первым и вторым семантически значимыми объектами или между первым семантически значимым объектом и атрибутом, нормированной на 90°: wij∈(0…90°).

Далее выбирают для каждой пары триад, связанных с парой конкретных вершин в базовой и сравниваемой сетях, меньшую из вычисленных величин в качестве степени пересечения триад в базовой и сравниваемой сетях. Все выбранные вычисленные величины суммируют для каждой из вершин, получая степень пересечения для данной пары вершин базовой и сравниваемой сетей. Найденную сумму нормируют на число семантически значимых объектов и атрибутов, связанных с данной вершины в той из базовой и сравниваемой сетей, которая содержит больше вершин. Полученные нормированные суммы суммируют теперь уже по всем вершинам той из базовой и сравниваемой сетей, которая содержит больше вершин. Наконец, полученную итоговую сумму нормируют на число оставшихся в этой сети элементарных единиц четвертого уровня, т.е. семантически значимых объектов и атрибутов, получая степень пересечения семантических сетей для двух сравниваемых текстов.

Очевидно, что в случае отсутствия в сравниваемой сети какой-либо вершины степень пересечения для этой вершины принимается равной нулю.

Пример

Для иллюстрации осуществления заявленного способа автоматизированного семантического сравнения текста на естественном языке рассмотрим следующий пример. Пусть имеется некоторый русскоязычный текст о правилах приема в Нижегородский государственный университет им. Н.И. Лобачевского в 2005 году, представленный на Интернет-сайте http://www.unn.ru/rus/priem.htm, и несколько (например, два) других текста из той же и из другой предметных областей. Таким образом, можно считать, что преобразование текстов в электронную форму, обозначенное на Фиг.1 ссылочной позицией 1, уже выполнено.

Типичным примером такого текста является следующий фрагмент:

«В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца (аттестат о среднем (полном) общем образовании; диплом о среднем профессиональном образовании; диплом о начальном профессиональном образовании, если в нем есть запись о получении среднего (полного) общего образования), если образование данного уровня получается впервые».

В соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке используют предварительно созданную базу синтаксических правил и словарей, в рамках которых будет осуществляться обработка текста и построение семантического индекса. Подобные базы готовятся экспертами-лингвистами, которые на основании своего опыта и знаний определяют последовательность и состав синтаксической обработки текста, характерных для конкретного языка.

Экспертами-лингвистами предварительно строится множество синтаксических правил, которые позволяют с помощью использования также предварительно построенных экспертами-лингвистами соответствующих лингвистических словарей в дальнейшем в обрабатываемых текстах автоматически выявлять конкретные сведения, соответствующие семантически значимым объектам, атрибутам семантически значимых объектов и семантически значимым отношениям, которые могут иметь место между семантически значимыми объектами или между семантически значимыми объектами и атрибутами.

Кроме спецификации предметной области и правил в соответствии с изложенными выше способами используются словари общей и специальной лексики.

В соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке сначала осуществляют сегментацию текста на элементарные единицы - токены (ссылочная позиция 21 на Фиг.2) и морфологический анализ токенов-слов (ссылочная позиция 23 на Фиг.2). В результате выполнения этого этапа исходный текст трансформируется во множество токенов и морфов, которые представлены в Таблице 1 и Таблице 2 соответственно.

Вводные слова и вставные конструкции не несут никакой синтаксической нагрузки, поэтому токены этого типа из дальнейшего анализа исключаются.

Токены-географические названия рассматриваются как одно слово с морфом, соответствующим морфу главного слова.

Далее, после сегментации текста на токены и морфологического анализа токенов-слов осуществляют выделение устойчивых словосочетаний (ссылочная позиция 24 на Фиг.2). Для этого подсчитывают частоту встречаемости слов в последовательностях из двух и более слов в тексте. Затем сравнивают разности частот встречаемости слов в последовательности для первого появления данной последовательности слов и для нескольких последующих их появлений.

Частоты встречаемости слов при нервом появлении последовательности и при ее последующем появлении, а также разности этих частот представлены в Таблице 3.

В результате выполнения этого этана исходный текст кроме элементарных единиц первого и второго уровней дополняется множеством единиц третьего уровня - устойчивыми словосочетаниями. Словосочетания для нашего примера представлены в Таблице 4.

После выполнения вышеуказанных этапов осуществляют фрагментацию обрабатываемого текста на предложения (ссылочная позиция 22 на Фиг.2). В результате выполнения этого этапа сформированные выше множества дополняются множеством предложений, представленным в Таблице 5.

Таким образом, после выполнения всех рассмотренных выше этапов обрабатываемый текст будет сегментирован на предложения, каждое из которых размечено множествами аннотаций элементарных единиц первого, второго и третьего уровней.

Вслед за этим, в соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке осуществляется выявление семантически значимых объектов и атрибутов (элементарных единиц четвертого уровня) (ссылочная позиция 25 на Фиг.2). Оно производится в каждом предложении на множестве элементарных единиц первого, второго и(или) третьего уровней путем применения заранее сформированного множества лингвистических и эвристических правил с использованием заранее же сформированных соответствующих лингвистических словарей.

Семантико-синтаксическая обработка предложения проводится в несколько этапов. Все этапы будем проводить на тексте, выбранном авторами для примера.

1. Членение предложения по знакам пунктуации и союзам (союзным словам и словосочетаниям) на начальные фрагменты и определение типа фрагмента на основе его морфологических характеристик. Для этого используется словарь союзов, союзных слов и словосочетаний.

Границы фрагментов ставятся по всем знакам препинания и союзам (союзным словам и словосочетаниям) без запятой. Кроме того, по словарю союзов определяется, нет ли такого сложного союза, начало которого в соседнем слева фрагменте, а конец в данном. В нашем случае таким союзным словосочетанием является «до тех пор, пока». Если такой союз есть, то запятую переносят перед всем союзом.

Тип фрагмента - одно из следующих значений, указанных в таблице 6. По порядку, указанному в таблице 6, ищется во фрагменте словоформа с соответствующим омонимом, остальные омонимы найденной словоформы не рассматриваются.

2. Объединение исходных отрезков с простыми случаями однородных рядов прилагательных, наречий, существительных и т.п. Признаком однородности выступает наличие сочинительного союза (или запятой), до и после которого должны находиться словоформы одной части речи, у которых есть омонимы, имеющие одинаковую морфологическую информацию. Остальные омонимы не рассматриваются при дальнейшем анализе, таким образом, происходит частичное снятие омонимии.

В нашем примере сочинительным союзом «и» соединены фрагменты 6 и 7, поскольку у токенов 38 («Киргизской Республики») и 41 («Республики Таджикистан») таблицы 1 есть омонимы одной части речи, имеющие одинаковую морфологическую информацию - Род.п. Ж.р. Ед.ч. Существительное Неодуш. Кроме того, запятые стоят между фрагментами 3-6, у входящих в них токенов 30, 32, 36, 38 таблицы 1 есть омонимы одной части речи, имеющие одинаковую морфологическую информацию - Род.п. Ж.р. Ед.ч. Существительное Неодуш. Следовательно, сливаем фрагменты 3-7 в один. Тип полученного фрагмента - 9 (табл.8).

3. Построение простых синтаксических групп, соответствующих атрибутивному уровню описания (табл.9): признак объекта/субъекта/действия + объект/субъект/действие, мера признака объекта/субъекта/действия + объект/субъект/действие.

Далее в предложениях текста выявляются и раскрываются анафорические ссылки. Для этого в пределах всего обрабатываемого текста в процессе выполнения этапа, обозначенного на Фиг.2 ссылочной позицией 26, находят местоимения, которые могут быть анафорическими ссылками на соответствующие слова, и для местоимений, которые действительно таковыми являются, фиксируют тождество по референции между соответствующим семантически значимым объектом и его анафорической ссылкой. В нашем примере анафоры отсутствуют.

4. Вложение контактно расположенных фрагментов (причастных, деепричастных оборотов, придаточных определительных, etc.) и установление иерархии на фрагментах. Причастный оборот и придаточное определительное будут являться признаком соответствующего объекта, деепричастный оборот - признаком действия.

В нашем примере фрагменты 2 и 4 (табл.8) с типом 5 «финансируемые за счет средств федерального бюджета» и «имеющие документ об образовании государственного образца» являются причастными оборотами с главными словами «финансируемые» и «имеющие» соответственно, согласованными с синтаксическим существительными «места» и «граждане» предыдущих фрагментов по роду и числу, следовательно, весь фрагмент 2 подчиняется существительному «места», а фрагмент 4 - существительному «граждане», являясь их признаковым описанием. Таким образом, весь фрагмент 2 - атрибут (признак) существительного «места», а фрагмент 4 - атрибут существительного «граждане».

Во втором столбце таблицы 11 показаны полученные после объединения и вложения укрупненные фрагменты предложения.

5. Построение множества однозначных морфологических интерпретаций каждого фрагмента.

В пределах каждого предложения осуществляется частичное снятие омонимии на морфологическом уровне путем:

1) выделения групп существительных, согласованных с одним или несколькими прилагательными/причастиями/местоимениями-прилагательными, находящимися в однородной связи (так называемый атрибутивный уровень, описанный выше в п.3);

2) анализа местоположения тире, что снимает омонимию, во-первых, со словоформы «это», поскольку тире перед данной словоформой указывает на то, что «это» - частица, во-вторых, с существительных до и после тире, т.к. у ближайшего к тире существительного справа возможен только именительный падеж, а слева - именительный или творительный;

3) выявления причастных оборотов, стоящих после существительного, поскольку такой оборот выделяется запятыми, а существительные, входящие в него, зависят от причастия и не могут быть в именительном падеже. Так, в нашем примере словоформа «документ» (токен 44, табл.2) может быть только в винительном падеже.

4) выявления предлогов, при этом у подчиненного предлогу существительного убираются те омонимы, которые имеют падеж, не употребляемый с данным предлогом (используется модель управления предлога). В нашем примере:

- предлог «на» (токен 3, табл.1) перед словоформой «курс» (токен 5, табл.1) не может управлять существительным в именительном падеже;

- предлог «для» (токен 6, табл.1) перед словоформой «обучения» (токен 7, табл.1) не может управлять существительным в именительном или винительном падеже;

- предлог «на» (токен 15, табл.1) перед словоформой «места» (токен 16, табл.1) не может управлять существительным в именительном или родительном падеже;

- предлог «за» (токен 19, табл.1) перед словоформой «счет» (токен 20, табл.1) не может управлять существительным в именительном падеже;

- предлог «на» (токен 26, табл.1) перед словоформой «основе» (токен 28, табл.1) не может управлять существительным в дательном падеже,

следовательно, эти омонимы убираются из рассмотрения.

В таблице 2 варианты омонимов, которые исключены из рассмотрения в результате частичного снятия омонимии на морфологическом уровне, выделены серым цветом.

6. Объединение фрагментов в простые предложения в составе сложноподчиненного с помощью подчинительных союзов. Подчинительные союзы выступают как границы простых предложений (табл.11, столбец 3).

7. Выявление предикативного минимума (в том числе основных семантически значимых объектов и основных семантически значимых связей - предикатов) предложения путем сравнения его структуры со словарем шаблонов минимальных структурных схем предложений, фрагмент которого приведен в Таблице 12. Результат для нашего примера приведен в Таблице 13. Необходимо заметить, что фрагменты 2 и 4 (Табл.8) являются признаковым описанием существительных «места» и «граждане» соответственно, т.е. выступают как определение, поэтому составляющие их словоформы не анализируются как члены предложения.

8. Выделение остальных членов простого предложения (остальных семантически значимых объектов и атрибутов) и остальных семантически значимых связей осуществляется последовательным сравнением слов предложения с актантной структурой глагола из словаря валентностей глаголов. Заполненные валентные гнезда для предикатов текста примера приведены в Таблице 14.

Более подробно рассмотрим предикат приниматься. Согласно семантической классификации, используемой в словаре валентностей глаголов, он прогнозирует ситуацию включения объекта в состав чего-либо. Глаголы этого класса требуют заполнения валентных ячеек 1 и 6 (т.е. Субъект и Конечный локатив) и имеют формальное выражение вида «существительное в именительном падеже - глагол - предложная группа с предлогами в, к, на, под и существительным в винительном падеже». Т.е. под данную схему подходит часть предложения В ННГУ на первый курс на места принимаются граждане, а все остальное является факультативными членами предложения и содержит дополнительную информацию, выражая семантику цели (для обучения), признак действия, представленного отглагольным существительным «обучение» (по основным образовательным программам). Таким образом, выявляются основные семантически значимые объекты «граждане», «курс», «место» и основное семантически значимое отношение «включение».

9. Построение синтаксических групп внутри полученных простых предложений, в которых актанты предикатов - главные слова, с помощью синтаксических правил, выявляющих синтаксические связи между словами. Построенные группы приведены в Таблице 15.

Таким образом, выявляется множество остальных семантически значимых объектов и атрибутов, а также остальных семантически отношений. Для указанного примера они сведены в Таблицу 16.

После выполнения предыдущих этапов на множестве выделенных элементарных единиц первого, второго, третьего и четвертого уровней с помощью упомянутых правил находят семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами. Так, например, в предложении «В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются па конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца» рассматриваемого текста с помощью множества правил, соответствующая которым схема обработки представлена на Фиг.2 (этапы обработки 21-27), а используемые в этом правиле словари представлены в Таблицах 6-16, выделяются семантически значимое отношение «какой». Другие семантически значимые отношения выделяются с помощью того же самого множества правил. Каждому семантически значимому отношению присваивается его тип. В результате в исходном тексте выделяют семантически значимые отношения. Множество таких семантически значимых отношений с присвоенными им типами для рассматриваемого примера представлено в Таблице 17.

Таким образом, после выполнения всех рассмотренных выше этапов обработки исходный текст будет размечен множеством аннотаций, соответствующих семантически значимым объектам, их атрибутам и семантически значимым отношениям между семантически значимыми объектами, а также между семантически значимыми объектам и атрибутами.

После этого на этапе, обозначенном на Фиг.2 ссылочной позицией 29, выявляют частоты встречаемости семантически значимых объектов и атрибутов, а также семантически значимых отношений между семантически значимыми объектами и между семантически значимыми объектами и атрибутами на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 24 для элементарных единиц первого уровня. Фрагмент такого частотного словаря для нашего примера представлен в Таблице 19.

Следующий этап, обозначенный на Фиг.2 ссылочной позицией 30, является техническим и выполняется для формирования триад, соответствующих сохраненным семантически значимым объектам, атрибутам и семантически значимым отношениям. Фрагмент множества таких триад для нашего примера представлен в Таблице 20. По сути дела сформированное множество триад составляет исходные данные для построения семантического индекса, обработанного на предыдущих этапах текста.

На этапе, обозначенном на Фиг.2 ссылочной позицией 31, строят семантический индекс следующим образом. Сначала из множества триад, полученных на предыдущем этапе, формируют подмножества триад, каждое из которых соответствует одному семантически значимому объекту с его атрибутами, и каждое полученное подмножество триад используют как вход для одного из стандартных индексаторов, например широко известного свободно распространяемого индексатора Lucene, индексатора поисковой машины Яндекс, индексатора Google или любого другого индексатора, с выхода которого получают уникальный для заданного подмножества триад индекс. Аналогичную последовательность действий выполняют для всех подмножеств триад, соответствующих триадам вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект» и триадам вида «семантически значимый объект - семантически значимое отношение - атрибут», получая множество соответствующих уникальных индексов, которые в совокупности и составляют семантический индекс текста.

На этапе, обозначенном на Фиг.2 ссылочной позицией 32, сформированные на этапе 30 триады и полученные на этапе 31 индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады, сохраняют в базе данных.

В соответствии со способом автоматизированного семантического сравнения текстов на естественном языке из упомянутых триад могут формировать семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. Пример фрагмента такой семантической сети приведен в Таблице 21.

При этом перед сохранением в базе данных сформированных триад и полученных индексов осуществляется в процессе итеративной процедуры перенормировка частот встречаемости семантически значимых объектов и атрибутов, а также частот встречаемости семантически значимых отношений в смысловой вес семантически значимых объектов и атрибутов, являющихся вершинами семантической сети, таким образом, что семантически значимые объекты или атрибуты, связанные в сети с большим числом семантически значимых объектов или атрибутов, с большой частотой встречаемости увеличивают свой смысловой вес, а другие семантически значимые объекты или атрибуты его равномерно теряют. Пример перенормированных в смысловые веса численных значений весовых коэффициентов понятий семантической сети приведен в Таблице 22. Аналогичным образом обрабатываются другие тексты (в данном примере - два), которые должны быть подвергнуты сравнению с исходным текстом.

Далее вычисляют степени пересечения семантических сетей исходного текста и двух других проанализированных текстов как по вершинам, так и по их связям с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей. Пример значений степеней пересечений семантических сетей трех текстов приведен в Таблице 23. Степень пересечения исходного текста с первым сравниваемым текстом говорит о большом их смысловом подобии, а степень пересечения с другим сравниваемым текстом - об их малом смысловом подобии.

Степень пересечения двух семантических сетей, принадлежащих двум текстам, вычисляется как сумма степеней пересечений элементарных единиц пятого уровня этих двух сетей. Эта сумма формируется по всем вершинам той из сетей, у которой больше вершин. Для каждой вершины этой сети находится вершина в другой сети, являющаяся той же элементарной единицей четвертого уровня - тем же семантически значимым объектом или тем же атрибутом. Если такой вершины во второй сети не находится, степень пересечения для этой вершины приравнивается к нулю. Пример значений степеней пересечения вершин фрагментов семантических сетей двух текстов приведен в Таблице 24.

Для каждой вершины одной семантической сети (для каждого семантически значимого элемента или атрибута - элементарных единиц четвертого уровня) посчитаем степень пересечения с соответствующей вершиной другой семантической сети. В приведенном примере рассматриваем, например, вершину «обучение» (см. Таблицу 24), которая имеется в семантических сетях обоих сравниваемых текстов. Эта степень пересечения вычисляется как сумма степеней пересечения всех семантически значимых объектов и атрибутов, связанных с этой вершиной. В семантических сетях выбранных текстов это «устав», «факультет», «кафедра», «юридический» и др. в одной семантической сети и «факультет», «юридический», «абитуриент», «курс» и др. - в другой семантической сети. Если пары не находится, степень пересечения считается равной нулю. Степень пересечения семантических сетей, таким образом, вычисляется суммированием наименьших степеней пересечения из двух пар одноименных семантически значимых понятий или атрибутов двух сравниваемых сетей. При этом вычисляются семантические пересечения смысловых весов каждого семантически значимого объекта, или атрибута, связанных с этой вершиной в этих двух сетях. Эти семантические пересечения вычисляются как нормированные на 100% скалярные произведения смысловых весов первой и второй вершин, а угол между ними берется пропорциональным нормированной на 100% частоте встречаемости связывающего их семантически значимого отношения. К полученной сумме добавляйся меньшее из скалярных произведений. Если во второй сети для данной вершины не находится соответствующего семантически значимого объекта, или атрибута, степень пересечения по этому семантически значимому объекту, или атрибуту, приравнивается нулю. После суммирования по всем семантически значимым объектам или атрибутам, связанным с текущей вершиной, нормируют полученную сумму на наибольшее в двух сетях число семантически значимых объектов и атрибутов, связанных с этой вершины, и переходят к следующей вершине.

Полученная по всем вершинам в одной из сетей (с наибольшим числом вершин) сумма нормируется на число сохраненных после применения обработки на этапе 7 (см. Фиг.1) элементарных единиц четвертого уровня.

Для вершин «обучение» вычисляются нормированные на 100% скалярные произведения 99×99×sin(67,5°)/100=90,54 и 99×99×sin(72°)/100=93,21 с вершинами «факультет». И так для всех вершин семантической сети, семантический вес которых превысил пороговое значение (выбранное равным 70 в данном примере).

Суммарная степень пересечения двух семантических сетей по вершине «обучение» - 122,45 по всем соседним с ней вершинам семантических сетей нормируется на наибольшее число 10 оставшихся после удаления подпороговых вершин в одной из двух семантических сетей сравниваемых текстов.

Следует еще раз подчеркнуть, что хотя в заявленном способе экспертами-лингвистами предварительно строится множество синтаксических правил и соответствующих лингвистических словарей (в силу чего в названии заявленного способа употреблено определение «автоматизированного»), раскрытое выше семантическое сравнение текстов осуществляется без вмешательства оператора.

Таким образом, настоящее изобретение обеспечивает способ семантического сравнения текстов на естественном языке практически без участия оператора. Основное отличие этого способа от известных способов состоит в том, что подсчитываются частоты встречаемости элементарных единиц четвертого уровня, т.е. семантически значимых объектов и атрибутов с последующей их перенормировкой в смысловые веса. Объединение триад из семантически значимых объектов и атрибутов с помощью семантически значимых отношений в семантическую сеть обеспечивает быстрое сравнение текстов, особенно текстов на высоко флективных языках.

Таблица 1
Сегментация текста на токены
№ токена Токен Начало Конец Тип токена
1 В 1 1 слово
2 ННГУ 3 6 сокращение
3 на 8 9 слово
4 первый 11 16 слово
5 курс слово
6 для слово
7 обучения слово
8 по слово
9 основным слово
10 образовательным слово
11 программам слово
12 высшего слово
13 профессионального слово
14 образования слово
15 на слово
16 места слово
17 , знак преп.
18 финансируемые слово
19 за слово
20 счет слово
21 средств слово
22 федерального слово
23 бюджета слово
24 , знак преп.
25 принимаются слово
26 на слово
27 конкурсной слово
28 основе слово
29 граждане слово
30 Российской Федерации слово - геогр. название
31 , знак преп.
32 Республики Беларусь слово - геогр. название
35 , знак преп.
36 Республики Казахстан слово - геогр. название
37 , знак преп.
38 Киргизской Республики слово - геогр. название
40 и слово
41 Республики Таджикистан слово - геогр. название
42 , знак преп.
43 имеющие слово
44 документ слово
45 об слово
46 образовании слово
47 государственного слово
48 образца слово
49 (аттестат о среднем (полном) общем образовании; диплом о среднем профессиональном образовании; диплом о начальном профессиональном образовании, если в нем есть запись о получении среднего (полного) общего образования) вставная конструкция - вставное предложение
50 если слово
51 образование слово
52 данного слово
53 уровня слово
54 получается слово
55 впервые слово
56 . знак преп.
Таблица 2
Леммы и морфы
№ токена Леммы Морфы
1 В Предлог
3 на Предлог
4 первый Им.п. М.р. Ед.ч. Числительное Порядковое
Вин.п. М.р. Ед.ч. Числительное Порядковое
5 курс Им.п. М.р. Ед.ч. Существительное Неодуш.
Вин.п. М.р. Ед.ч. Существительное Неодуш.
6 для Предлог
длить Настоящее Деепричастие Несовершенный
7 обучение Им.п. С.р. Мн.ч. Существительное Неодуш.
Род.п. С.р. Ед.ч. Существительное Неодуш.
Вин.п. С.р. Мн.ч. Существительное Неодуш.
8 по Предлог
9 основный Дат.п. Мн.ч. Прилагательное
Тв.п. М.р. Ед.ч. Прилагательное
Тв.п. С.р. Ед.ч. Прилагательное
основной Дат.п. Мн.ч. Прилагательное
Тв.п. М.р. Ед.ч. Прилагательное
Тв.п. С.р. Ед.ч. Прилагательное
10 образовательный Дат.п. Мн.ч. Прилагательное
Тв.п. М.р. Ед.ч. Прилагательное
Тв.п. С.р. Ед.ч. Прилагательное
11 программа Дат.п. Ж.р. Мн.ч. Существительное Неодуш.
Род.п. М.р. Ед.ч. Прилагательное
12 высший Род.п. С.р. Ед.ч. Прилагательное
Вин.п. М.р. Ед.ч. Прилагательное Одушевл.
Вин.п. С.р. Ед.ч. Прилагательное Одушевл.
Род.п. М.р. Ед.ч. Прилагательное
13 профессиональный Род.п. С.р. Ед.ч. Прилагательное
Вин.п. М.р. Ед.ч. Прилагательное Одушевл.
Вин.п. С.р. Ед.ч. Прилагательное Одушевл.
Им.п. С.р. Мн.ч. Существительное Неодуш.
14 образование Род.п. С.р. Ед.ч. Существительное Неодуш.
Вин.п. С.р. Мн.ч. Существительное Неодуш.
15 на Предлог
Им.п. С.р. Мн.ч. Существительное Неодуш.
16 место Род.п. С.р. Ед.ч. Существительное Неодуш.
Вин.п. С.р. Мн.ч. Существительное Неодуш.
18 финансировать Им.п. Мн.ч. Настоящее Пассивный Причастие Сов.-Несов. вид
Вин.п. Мн.ч. Настоящее Пассивный Причастие Неодуш. Сов.-Несов. вид
19 за Предлог
20 счет Им.п. М.р. Ед.ч. Существительное Неодуш.
Вин.п. М.р. Ед.ч. Существительное Неодуш.
21 средство Род.п. С.р. Мн.ч. Существительное Неодуш.
Род.п. М.р. Ед.ч. Прилагательное
22 федеральный Род.п. С.р. Ед.ч. Прилагательное
Вин.п. М.р. Ед.ч. Прилагательное Одушевл.
Вин.п. С.р. Ед.ч. Прилагательное Одушевл.
23 бюджет Род.п. М.р. Ед.ч. Существительное Неодуш.
25 приниматься Мн.ч. Настоящее 3-е лицо Глагол Несовершенный
26 на Предлог
Род.п. Ж.р. Ед.ч. Прилагательное
27 конкурсный Дат.п. Ж.р. Ед.ч. Прилагательное
Тв.п. Ж.р. Ед.ч. Прилагательное
Предл.п. Ж.р. Ед.ч. Прилагательное
28 основа Дат.п. Ж.р. Ед.ч. Существительное Неодуш.
Предл.п. Ж.р. Ед.ч. Существительное Неодуш.
29 гражданин Им.п. М.р. Мн.ч. Существительное Одушевл.
Род.п. Ж.р. Ед.ч. Существительное Неодуш.
30 Российская Федерация Дат.п. Ж.р. Ед.ч. Существительное Неодуш.
Предл.п. Ж.р. Ед.ч. Существительное Неодуш.
Им.п. Ж.р. Мн.ч. Существительное Неодуш.
32 Республика Беларусь Род.п. Ж.р. Ед.ч. Существительное Неодуш.
Вин.п. Ж.р. Мн.ч. Существительное Неодуш.
36 Республика Казахстан Им.п. Ж.р. Мн.ч. Существительное Неодуш.
Род.п. Ж.р. Ед.ч. Существительное Неодуш.
Вин.п. Ж.р. Мн.ч. Существительное Неодуш.
38 Киргизская Республика Род.п. Ж.р. Ед.ч. Существительное Неодуш.
40 и Союз
41 Республика Таджикистан Им.п. Ж.р. Мн.ч. Существительное Неодуш.
Род.п. Ж.р. Ед.ч. Существительное Неодуш.
Вин.п. Ж.р. Мн.ч. Существительное Неодуш.
43 иметь Им.п. Мн.ч. Настоящее Активный Причастие Несовершенный
Вип.п. Мн.ч. Настоящее Активный Причастие Неодуш. Несовершенный
44 документ Им.п. М.р. Ед.ч. Существительное Неодуш.
Вин.п. М.р. Ед.ч. Существительное Неодуш.
45 об Предлог
46 образование Предл.п. С.р. Ед.ч. Существительное Неодуш.
Род.п. М.р. Ед.ч. Прилагательное
47 государственный Вин.п. М.р. Ед.ч. Прилагательное Одушевл.
Род.п. С.р. Ед.ч. Прилагательное
48 образец Род.п. М.р. Ед.ч. Существительное Неодуш.
50 если Союз
51 образование Им.п. С.р. Ед.ч. Существительное Неодуш.
Вин.п. С.р. Ед.ч. Существительное Неодуш.
52 данные Род.п. С.р. Ед.ч. Существительное Неодуш.
Род.п. М.р. Ед.ч. Прилагательное
Род.п. С.р. Ед.ч. Прилагательное
Вин.п. М.р. Ед.ч. Прилагательное Одушевл.
данный Вин.п. С.р. Ед.ч. Прилагательное Одушевл.
Род.п. М.р. Ед.ч. Местоимение Местоим.-прилаг.
Род.п. С.р. Ед.ч. Местоимение Местоим.-прилаг.
Вин.п. М.р. Ед.ч. Местоимение Одушевл. Местоим.-прилаг.
Род.п. М.р. Ед.ч. Прош. Пассивный Причастие Совершенный
дать Вин.п. М.р. Ед.ч. Прош. Пассивный Причастие Одушевл. Совершенный
Род.п. С.р. Ед.ч. Прош. Пассивный Причастие Совершенный
Вин.п. С.р. Ед.ч. Прош. Пассивный Причастие Одушевл. Совершенный
53 уровень Род.п. М.р. Ед.ч. Существительное Неодуш.
54 получаться Ед.ч. Настоящее 3-е лицо Глагол Несовершенный
55 впервые Наречие
Таблица 3
Частоты встречаемости первых и последующих слов последовательности в тексте, а также разности частот встречаемости для разных слов в последовательности
Повторение Слова Частота Разница
последовательности слов в тексте последовательности встречаемости частот
1 1 национальная 1
экономика 1 0
2 национальная 2
экономика 2 0
3 национальная 3
экономика 3 0
2 1 экономика 4
письменная 1 3
2 экономика 5
письменная 2 3
3 экономика 6
письменная 3 3
Таблица 4
Устойчивые словосочетания слов в тексте
Словосочетание
национальная экономика
Экономика письменная
Таблица 5
Множество предложений текста
Предложения текста Единицы 1 уровня Единицы 2 уровня Единицы 3 уровня
Правила приема в Нижегородский государственный университет им. Н.И. Лобачевского в году правила, приема, в, нижегородский, государственный, университет, им., н., и., лобачевского, в, году правила, приема, в, нижегородский, государственный, унивесрситет, лобачевский, в, год Нижегородский государственный университет им. Н.И. Лобачевского
Утверждено и.о. ректора ННГУ, проф. Р.Г. Стронгиным май г. утвержден, и.о., о., ректор, ННГУ, проф., р., г., стронгин, май, г. утвержден, ректор, ННГУ, стронгин, май Ректор ННГУ проф. Р.Г. Стронгин
Таблица 6
Тин фрагмента
Глагол в личной форме Краткое причастие Краткое прилагательное Предикативное слово Причастие Деепричастие Инфинитив Вводное слово Иное
1 2 3 4 5 6 7 8 9
Таблица 7
Результаты начальной фрагментации предложения
№ фрагм. Фрагменты предложения Тип фрагмента
1 В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места 9
2 финансируемые за счет средств федерального бюджета 5
3 принимаются на конкурсной основе граждане Российской Федерации 1
4 Республики Беларусь 9
5 Республики Казахстан 9
6 Киргизской Республики 9
7 и Республики Таджикистан 9
8 имеющие документ об образовании государственного образца 5
9 если образование данного уровня получается впервые 1
Таблица 8
Результаты фрагментации предложения после объединения однородных рядов
№ фрагм. Фрагменты предложения Тип фрагмента
1 В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места 9
2 финансируемые за счет средств федерального бюджета 5
3 принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан 1
4 имеющие документ об образовании государственного образца 5
5 если образование данного уровня получается впервые 1
Таблица 9
Элементы атрибутивного уровня описания
Компоненты предложения Морфологические признаки
Объект/Субъект Существительное, местоимение-существительное
Действие Глагол
Признак объекта Полное прилагательное, порядковое числительное, местоимение-прилагательное, согласованное с объектом/субъектом по роду, числу и падежу
Признак действия Наречие
Мера признака Наречие, наречное числительное
Таблица 10
Синтаксические группы, соответствующие атрибутивному уровню описания
Элементы синтаксической группы Номера токенов Синтаксическая группа
признак объекта + объект 4+5 первый курс
признак объекта + объект 9+10+11 основным образовательным программам
признак объекта + объект 12+13+14 высшего профессионального образования
признак объекта + объект 22+23 федерального бюджета
признак объекта + объект 27+28 конкурсной основе
признак объекта + объект 47+48 государственного образца
признак объекта + объект 52+53 данного уровня
действие + признак действия 54+55 получается впервые
Таблица 11
Полученные простые предложения в результате укрупнения фрагментов
№ простого предл. Укрупненные фрагменты Составляющие простые предложения
1 В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца
принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца
2 если образование данного уровня получается впервые если образование данного уровня получается впервые
Таблица 12
Минимальные структурные схемы предложений (фрагмент)
МСС Примеры предложений
N1 V(f) Грачи прилетели. Дела делаются людьми.
N1 Cop(f) Adj1 Ночь была тихая (тихой, тиха).
N1 Cop(f) Adj5 Ночь тихая (тиха).
N1 Cop(f) Adj(f) Ночь была тише дня.
N1 Cop(f) N1 Он (был) студент.
N1 Cop(f) N5 Он был студентом.
Cop(f) N1 Будет дождь. Была зима. Шепот. Робкое дыхание. Тишина.
Пояснение к таблице 12:
V(f) - спрягаемые формы глагола (не инфинитив);
Cop(f) - спрягаемые формы связки служебных слов быть, стать, являться;
Inf - инфинитив глагола или связки;
N1, N5 - именительный, творительный падеж субстантива;
Adj1, Adj5 - именительный, творительный падеж прилагательных и страдательных причастий;
Adj(f) - краткие формы и компоративы прилагательных и страдательных причастий.

Предложения с шаблоном Cop(f) N1 могут быть назывными, т.е. глагол-связка там не присутствует в явном виде. В этом случае полагаем предикат - нулевой, обозначаемый как NULL.

Таблица 13
Предикативный минимум простых предложений, входящих в состав сложноподчиненного предложения исходного текста
№ простого предл. Составляющие простые предложения Шаблон МСС Предикативный минимум (Субъект-Предикат)
1 В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца N1 V(f) - Существительное в именительном падеже + Спрягаемая форма глагола граждане принимаются
2 если образование данного уровня получается впервые. N1 V(f) - Существительное в именительном падеже + Спрягаемая форма глагола образование получается
Таблица 14
Заполнение валентных гнезд для предикатов текста примера
№ простого предл. Предикат 1. Субъект 2. Объект 3. Адресат 4. Инструмент 5-7. Локативы
1 приниматься граждане - - - в ННГУ, на курс, на места -
2 получаться образование - - - -
Примечание к таблице: 5 - начальный локатив, 6 - конечный локатив, 7 - средний локатив.
Таблица 15
Синтаксические группы, полученные из исходного текста с помощью синтаксических правил
№ простого предл. Фрагменты предложения Синтаксические группы, где актанты и предикат-главные слова Название групп и правил
1 В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета на первый курс Объект + Признак объекта
на места, финансируемые за счет средств федерального бюджета Объект + Признак объекта
принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца граждане Российской Федерации Генитивное определение в постпозиции
1 граждане Республики Беларусь Генитивное определение в постпозиции
граждане Республики Казахстан Генитивное определение в постпозиции
граждане Киргизской Республики Генитивное определение в постпозиции
граждане Республики Таджикистан Генитивное определение в постпозиции
граждане, имеющие документ об образовании государственного образца Объект + Признак объекта
2 если образование данного уровня получается впервые образование уровня Объект + Признак объекта
Генитивное определение в постпозиции
данного уровня Объект + Признак объекта
получается впервые Действие + признак действия
Таблица 16
Множество семантически значимых объектов и атрибутов (фрагмент)
Простое предложение Семантически значимые объекты Атрибуты
В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца ННГУ -
курс первый
места финансируемые за счет средств федерального бюджета
граждане Российской Федерации, граждане Республики Беларусь, граждане Республики Казахстан, граждане Киргизской Республики, граждане Республики Таджикистан имеющие документ об образовании государственного образца
если образование данного уровня получается впервые образование уровня -
Таблица 17
Отношения между семантически значимыми объектами, и между семантически значимыми объектами и атрибутами
Семантически значимый объект 1 Семантически значимый объект 2 Семантически значимое отношение Тип семантически значимого отношения
1 граждане ННГУ приниматься включать
2 граждане курс приниматься включать
3 граждане место приниматься включать
Таблица 18
Частота встречаемости семантически значимых объектов и атрибутов.
Семантически значимый объект или атрибут Частота встречаемости
1 граждане 7
2 ННГУ 38
3 курс 7
4 место 41
Таблица 19
Частота встречаемости семантически значимых отношений между семантически значимыми объектами, и между семантически значимыми объектами и атрибутами
Семантически значимый объект 1 - семантически значимый объект 2 Семантически значимое отношение Частота встречаемости семантически значимого отношения
1 граждане - ННГУ приниматься 56
2 граждане - курс приниматься 50
3 граждане - место приниматься 53
Таблица 20
Множество триад (фрагмент).
Триады
1 граждане - НГГУ
2 граждане - курс
3 граждане - место
4 НГГУ - место
5 НГГУ - граждане
6 НГГУ - курс
7 место - абитуриент
Таблица 21
Семантическая сеть из триад (фрагмент).
Главное слово Отношение Подчиненное слово
1 граждане включать НГГУ
2 граждане включать курс
3 граждане включать место
4 НГГУ часть-целое место
5 НГГУ включать граждане
6 НГГУ часть-целое курс
7 место претендовать абитуриент
Таблица 22
Смысловой вес семантически значимых слов и атрибутов
Семантически значимый объект или атрибут Семантический вес
1 граждане 98
2 ННГУ 98
3 курс 95
4 место 99
Таблица 23
Степени пересечений семантических сетей исходного текста с сетями двух других текстов
Текст 1 Текст 2 Текст 3
Текст 1 100,00 8,35 2,91
Текст 2 8,35 100,00 1,15
Текст 3 2,91 1,15 100,00
Таблица 24
Степень пересечения двух фрагментов двух семантических сетей
фрагмент первой сети фрагмент второй сети степень пересечения вторых объектов или атрибутов
вершина вершина, связанная с первой семантический вес, вес отношения вершина, связанная с первой семантический вес, вес отношения
обучение 122,45/10=12,24
1 университет 100,98 0
2 студент 99,91 0
3 преподаватель 99,95 0
4 бюджет 99,53 0
5 ректор 99,55 0
6 сотрудник 99,42 0
7 устав 99,30 0
8 факультет 99,75 факультет 99,80 90,54
9 кафедра 78,65 0
10 юридический 71,30 юридический 72,40 31,91
абитуриент 99,75 0
зачисление 99,32 0
курс 98,41 0
степень пересечения вершин «обучение» 122,45
курс
факультет 99 0
Таблица 25
Степень пересечения семантических сетей двух текстов
первая сеть вторая сеть
вершина вершина, связанная с первой вершина вершина, связанная с первой суммарный вес
1 государственный 1 государственный 14,25
2 бюджет 2 гражданин 0
3 преподаватель 3 комиссия 0
4 обучение 4 информатика 0
5 ректор 5 ректор 19,42
6 сотрудник 6 письменная 0
7 студент 7 студент 18,31
8 факультет 8 факультет 15,20
9 кафедра 9 0
60 юридический 79 юридический 13,18
Сумма 659,91
Нормированная сумма 660/79=8,35
Таблица 26
Степень пересечения вершины «обучение» двух семантических сетей
первая сеть вторая сеть
первая вершина вторая вершина вес вес отношения скалярное произведение первая вершина вторая вершина вес вес отношения скалярное произведение
обучение 99 обучение 99
факультет 99 75 90,54 факультет 99 80 93,21
юридический 71 30 31,91 юридический 72 40 41,89
степень пересечение «факультет» 90,54
степень пересечение «юридический» 31,91
степень пересечение 122,45/10=12,24

1. Способ автоматизированного семантического сравнения текстов на естественном языке, заключающийся в том, что:
- представляют два сравниваемых текста в цифровой форме для последующей автоматической и(или) автоматизированной обработки;
- осуществляют индексацию этих текстов в цифровой форме, получая:
- элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова,
- элементарные единицы второго уровня, каждая из которых представляет собой нормализованную словоформу,
- элементарные единицы третьего уровня, каждая из которых представляет собой устойчивое словосочетание в упомянутом тексте,
- элементарные единицы четвертого уровня, каждая из которых является семантически значимым объектом и атрибутом, и
- элементарные единицы пятого уровня, каждая из которых представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо из семантически значимого объекта и атрибута и связывающего их семантически значимого отношения;
- выявляют частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений;
- сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с выявленными частотами встречаемости элементарных единиц четвертого уровня и семантически значимых отношений, а также полученные индексы вместе со ссылками на конкретные предложения данного текста;
- формируют из упомянутых триад семантическую сеть таким образом, что первая элементарная единица четвертого уровня последующей триады связывается с такой же второй элементарной единицей четвертого уровня предыдущей триады;
- осуществляют в процессе итеративной процедуры перенормировку упомянутых частот встречаемости в смысловой вес элементарных единиц четвертого уровня, являющихся вершинами семантической сети, таким образом, что элементарные единицы четвертого уровня, связанные в сети с большим числом других элементарных единиц четвертого уровня с большой частотой встречаемости, увеличивают свой смысловой вес, а прочие элементарные единицы четвертого уровня его равномерно теряют;
- ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения;
- сохраняют в памяти оставшиеся элементарные единицы четвертого уровня со смысловым весом выше порогового, а также семантически значимые отношения между оставшимися элементарными единицами четвертого уровня;
- выявляют для двух сравниваемых текстов степень пересечения их семантических сетей как по вершинам, так и по связям между этими вершинами с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей, причем степень пересечения семантических сетей двух сравниваемых текстов является величиной, характеризующей семантическое подобие этих текстов.

2. Способ по п.1, в котором упомянутую индексацию осуществляют в процессе выполнения следующих этапов:
- сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова;
- сегментируют по графематическим правилам текст в цифровой форме на предложения;
- формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу;
- подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди упомянутых элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными;
- выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимый объекты и атрибуты - единицы четвертого уровня;
- для каждой элементарной единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом и соответствующей анафорической ссылкой при ее наличии в индексируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент;
- сохраняют в памяти каждый семантически значимый объект и атрибут;
- выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и их атрибутами;
- присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст;
- выявляют на всем тексте частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений;
- сохраняют в памяти каждое выявленное семантически значимое отношение вместе с присвоенным ему типом;
- формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня;
- индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.

3. Способ по п.1, в котором упомянутая степень пересечения двух семантических сетей, принадлежащих упомянутым двум сравниваемым текстам, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей.

4. Способ по п.3, в котором:
- выбирают в качестве базовой сети ту из упомянутых двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже упомянутого порогового значения осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой;
- находят для каждой вершины упомянутой базовой сети в упомянутой сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом или тем же самым атрибутом;
- вычисляют для каждой найденной вершины в каждой из упомянутых базовой и сравниваемой сетей величины всех связанных с данной вершиной упомянутых триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад, а угол между сторонами пропорционален весу семантически значимого отношения этой триады;
- выбирают для каждой пары упомянутых триад, связанных с парой конкретных вершин в упомянутых базовой и сравниваемой сетях, меньшую из упомянутых вычисленных величин в качестве степени пересечения упомянутых триад в упомянутых базовой и сравниваемой сетях;
- суммируют для каждой из вершин, связанных с данной вершиной, все выбранные вычисленные величины, получая степень пересечения для данной пары вершин упомянутых базовой и сравниваемой сетей;
- нормируют найденную сумму на число упомянутых семантически значимых объектов и атрибутов, связанных с данной вершиной в той из упомянутых базовой и сравниваемой сетей, которая содержит больше вершин, связанных с данной вершиной;
- суммируют нормированные суммы по всем вершинам той из упомянутых базовой и сравниваемой сетей, которая содержит больше вершин;
- нормируют полученную сумму на число оставшихся в этой сети элементарных единиц четвертого уровня, получая упомянутую степень пересечения семантических сетей упомянутых сравниваемых текстов.



 

Похожие патенты:

Заявленная группа изобретений относится к решениям в области систем управления базами данных (СУБД). Техническим результатом является обеспечение автоматизации и повышение точности генерирования команд СУБД и снижение объема вычислений, требуемого для генерирования команд СУБД.

Изобретение относится к области информационных технологий, а именно к индексации текста. Техническим результатом является повышение точности построения индексов текстов на естественных языках.
Изобретение относится к способам синтаксического анализа языков программирования высокого уровня и может найти применение для создания компиляторов и/или интерпретаторов языков программирования с изменяемой (расширяемой) грамматикой, предназначенных для создания проблемно-ориентированных языков.

Изобретение относится к способу обработки естественного языка с использованием системы языковой обработки, в частности, электронной системы перевода, в котором письменный или устный текст вводится в систему языковой обработки.
Изобретение относится к способу классификации документов по категориям. .

Изобретение относится к области обработки данных при семантическом анализе текстовых данных и построении семантической модели документов. .

Изобретение относится к области обработки данных, а более конкретно к высокопроизводительному и при этом очень гибкому механизму синтаксического анализа/компоновки.

Изобретение относится к области для определения разборчивости символа. .

Изобретение относится к области информационных технологий. Техническим результатом является ускорение процесса сравнения текстов. В способе автоматизированной семантической классификации текстов на естественном языке представляют каждый классифицируемый текст в цифровой форме для последующей обработки. Индексируют текст, получая элементарные единицы первого-пятого уровней. Выявляют частоты встречаемости единиц четвертого уровня, каждая из которых является семантически значимым объектом или атрибутом, и частоты встречаемости семантически значимых отношений, связывающих семантически значимые объекты, а также объекты и атрибуты. Формируют из триад, являющихся единицами пятого уровня, семантическую сеть. Перенормируют частоты встречаемости в смысловой вес единиц четвертого уровня. Ранжируют единицы четвертого уровня по смысловому весу путем сравнения его с пороговым значением и те, которые имеют вес ниже порогового значения. Выявляют степени пересечения семантических сетей текста и текстовых выборок. Выбирают в качестве класса для текста предметные области, степени пересечения семантической сети которых с семантической сетью текста больше порога. 5 з.п. ф-лы, 2 ил., 24 табл.
Изобретение относится к области выявления программных ошибок и не декларируемых возможностей в веб-приложениях на интерпретируемых языках. Техническими результатами являются повышение числа потенциально обнаруживаемых уязвимостей веб-приложений, а также сокращение времени, необходимого для ручного анализа программных ошибок с целью определения их критичности. В способе определения уязвимых функций при автоматизированной проверке веб-приложений на наличие уязвимостей и не декларируемых возможностей составляют список исходных текстов веб-приложений, предназначенных для формирования параметров тестирования, и задают параметры исходных текстов для тестирования. Проводят синтаксический анализ исходных текстов, используя заданные параметры, и добавляют опознавательные метки в исходные тексты с указанием пар метка-функция. Проводят автоматизированную проверку и поиск программных ошибок в веб-приложениях и получают при возникновении ошибки отладочную информацию в виде машинного кода, описывающего текущий исполняемый модуль и содержащего имя соответствующей метки. Определяют по этой метке соответствующую пару метка-функция и получают название уязвимой функции, а также полное имя модуля, содержащего уязвимую функцию. 2 з.п. ф-лы.

Изобретение относится к решениям в области обработки массивов данных, в частности к решениям в области обработки структурированных массивов данных, содержащих текст на естественном языке. Техническим результатом является формирование логически, грамматически и орфографически верной структуры данных, обеспечивающей быструю и удобную навигацию по элементам структуры. В способе преобразования структурированного массива данных, содержащего текст на естественном языке, формируют (101) первую структуру данных структурированного массива данных из итоговой структуры данных структурированного массива данных. Формируют (102) базу данных логических связей логических разделов элементов первой структуры данных. Формируют (103) вторую структуру данных структурированного массива данных. Формируют (104) базу данных семантических частей логических разделов элементов второй структуры данных. Формируют (105) грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных путем лингвистических преобразований над упомянутыми семантическими частями. Формируют (106) итоговую структуру данных структурированного массива данных. 4 н. и 13 з.п. ф-лы, 15 ил., 3 табл.

Изобретение относится к области систем управления базами данных (СУБД). Техническим результатом является обеспечение автоматического формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды. В способе формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды идентифицируют 110 метаописание синтаксиса команды. Идентифицируют 120 элементы метаописания и присваивают каждому элементу уникальный идентификатор (ID), причем ID присваивается в порядке очередности расположения элементов в метаописании. Формируют 130 таблицу, содержащую все элементы, причем каждый элемент содержится в одной колонке таблицы на разных строках таблицы. Идентифицируют 140 открывающие структурные элементы и закрывающие структурные элементы среди элементов, содержащихся в таблице, и генерируют двунаправленные связи между соответствующими открывающими и закрывающими структурными элементами. Генерируют 150 однонаправленные иерархические связи между открывающими элементами и соответствующим открывающим элементом, находящимся на предыдущем уровне вложенности, причем генерирование упомянутых связей осуществляется для каждого открывающего элемента, находящегося на любом из уровней, кроме первого уровня. 4 н. и 13 з.п. ф-лы, 15 ил.

Изобретение относится к области обработки данных, а именно к распознаванию текстовой информации. Техническим результатом является повышение производительности системы содержательной обработки электронных документов и увеличение числа анализируемых источников информации. В способе распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет электронный документ разбивают на области, предположительно содержащие абзацы и строки текста. Причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Осуществляют удаление избыточной и излишней информации. Анализируют корректность кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка. Вычисляют статистические характеристики частей речи и их форм. Из полученных значений статистических характеристик формируют вектор признаков рабочего словаря, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов. Оценивают полноту текстовой информации на основе мажоритарного способа принятия решения. 5 ил.

Изобретение относится к технологиям поиска. Техническим результатом является повышение точности поиска информации за счет обеспечения возможности получения пользователем только релевантных результатов поиска за счет использования семантических запросов. В способе организации поиска в корпусах электронных текстов для компьютерной системы предварительно осуществляют семантико-синтаксический анализ корпуса текстов с определением и сохранением в памяти значений лингвистических параметров предложений, включая сопоставление слов предложения некоторого множества возможных лексических значений - каждое с соответствующей оценкой вероятности вхождения этого лексического значения в предложение, и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов. Осуществляют поиск фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу. Производят оценку релевантности результатов и ранжируют результаты поиска в соответствии со степенью релевантности. 2 н. и 38 з.п. ф-лы, 25 ил.

Настоящее изобретение относится к технологиям поиска информации в электронных ресурсах и способам представления результатов поиска. Технический результат состоит в повышении точности и скорости поиска информации. В способе организации поиска получают запрос на поиск, включающий группу слов. Затем показывают список лексических значений для упомянутой группы слов. Пользователь выбирает лексические значения из списка, после чего проводится семантико-синтаксический анализ найденных фрагментов с определением лексических значений. Затем распределяют найденные фрагменты по кластерам лексических значений, а пользователю показывают результаты поиска, релевантные выбранному лексическому значению. 2 н. и 28 з.п. ф-лы, 29 ил.

Изобретение относится к обработке массивов данных, содержащих текст на естественном языке. Техническим результатом является повышение релевантности результатов поиска за счет обеспечения корректной карты связей компонентов логических конструкций. В способе формирования карты связей идентифицируют компоненты семантических частей, причем компонент содержит не более одного значения компонента, и формируют таблицу компонентов. Идентифицируют семантические части, содержащие и не содержащие компоненты. Идентифицируют компоненты, которых содержится более одного в семантических частях, идентифицируют сочетания компонентов и формируют карту сочетаний компонентов. Идентифицируют значения компонентов в карте сочетаний. В семантических частях, не содержащих компонентов, идентифицируют понятия, семантически совпадающие со значениями компонентов, и формируют таблицу совпадающих понятий. Идентифицируют семантическую часть, не содержащую компонентов и содержащую более одного понятия. Идентифицируют семантическую часть, содержащую более одного компонента, значения которых семантически совпадают с понятиями. Формируют карту сочетаний совпадающих понятий. Формируют карту связей компонентов. 4 н. и 8 з.п. ф-лы, 19 ил., 6 табл.

Изобретение относится к способам поиска на устройствах хранения данных электронных документов, похожих стилистически и по смыслу на выбранный документ. Техническим результатом является повышение точности поиска подобных электронных документов в массиве документов различного стиля. В способе поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных, осуществляют загрузку двух электронных документов. Определяют параметры поиска путем задания правил формирования множества уникальных слов, формируют множество взвешенных уникальных слов и взвешенных связей между ними. Строят семантическую сеть и производят поиск похожих по смыслу документов путем сравнения семантических сетей. При этом дополнительно задают правила формирования стилистических образов документов путем определения размера матриц частот переходов и выбора элементов матриц частот переходов. Причем элементы матриц частот переходов представляют собой одно из: биграммы и триграммы. Затем формируют матрицы частот переходов документов и сравнивают матрицы частот переходов документов на подобие путем вычисления коэффициента сходства. 2 ил.

Изобретение относится к интегрированной автоматизированной системе разработки, принятия и применения нормативных правовых актов. Технический результат заключается в автоматизации анализа юридической ситуации, задаваемой пользователем, и принятия решения о правомерности данной ситуации. Система содержит сервер баз данных, включающий базу данных нормативных правовых актов на формальном языке и базу данных текстов нормативных правовых актов на естественном языке, клиент-серверную систему управления указанными базами данных, при этом сервер баз данных соединен через вычислительную сеть с автоматизированными рабочими местами разработчиков нормативных правовых актов, каждое из которых включает в себя вычислительную машину, содержащую модуль разработки нормативных правовых актов, также с автоматизированными рабочими местами лиц, осуществляющих рассмотрение или принятие нормативного правового акта, каждое из которых включает в себя вычислительную машину, содержащую модуль рассмотрения и принятия нормативного правового акта, а также с автоматизированными рабочими местами пользователей нормативных правовых актов, каждое из которых включает в себя вычислительную машину, содержащую модуль применения нормативных правовых актов. 20 ил.
Наверх