Патенты автора Богданова Дарья Николаевна (RU)

Изобретение относится к способу, машиночитаемому носителю данных и системе для создания корпуса сравнимых документов. Технический результат заключается в возможности автоматического формирования корпуса сравнимых документов. В способе выполняют получение вычислительным устройством исходного набора документов, содержащих тексты, проведение вычислительным устройством семантико-синтаксического анализа текстов для построения не зависящих от языка семантических структур предложений текстов этих документов, вычисление значений универсальной меры похожести для групп документов путем сравнения построенных, не зависящих от языка семантических структур для текстов этих документов, выявление вычислительным устройством групп схожих документов на основании вычисленных значений универсальной меры похожести групп документов, формирование вычислительным устройством корпуса сравнимых документов на основании выявленных схожих документов. 3 н. и 12 з.п. ф-лы, 15 ил.

Изобретение относится к способам автоматической обработки текста на естественном языке. Техническим результатом является повышение точности синтаксического и семантического анализа, выражающейся в распознавании смысла текста, точности машинного перевода, релевантности результатов информационного поиска. Технический результат достигается за счет возможности динамически в автоматическом режиме пополнять словари, реестры слов, семантические описания языка новыми словами, вследствие чего повышается эффективность систем, решающих задачи автоматической обработки текста. Компьютерное устройство получает текст, содержащий слово. Слово сравнивается со словами из реестра значений. Реестр значений содержит слова и соответствующие им понятия. При соотнесении слова со словом из реестра значений выявляется соответствующее понятие для слова путем сравнения каждого понятия, относящегося к слову из реестра, со словом. При выявлении соответствующего понятия для слова это понятие назначается для слова. При невыявлении соответствующего понятия для слова для данного слова добавляется новое понятие в реестр значений на основе этого слова. 3 н. и 18 з.п. ф-лы, 18 ил.

Изобретение относится к области построения корпуса документов. Технический результат заключается в обеспечении автоматизации анализа корпуса документов для определения тем корпуса документов. Технический результат достигается за счет выполнения классификации, с использованием классификатора, каждого документа во втором наборе документов по одной или более темам из числа исходных тем, где классификация включает определение неклассифицированного подмножества документов из второго набора документов, которые не были отнесены ни к одной из исходных тем, кластеризацию неклассифицированного подмножества документов по новым темам, не входящим в исходные темы, и классификацию каждого документа из неклассифицированного подмножества документов по одной или более темам из числа новых тем. 3 н. и 16 з.п. ф-лы, 7 ил.

Изобретение относится к компьютерной технике, а именно к анализу текстов. Технический результат - эффективная обработка новых слов, отсутствующих в используемом реестре значений, добавление этих понятий в реестр значений и использование их во время дальнейшего анализа. Способ разрешения семантической неоднозначности, содержащий: получение с помощью вычислительного устройства первого текста на первом языке; обнаружение по меньшей мере одного неизвестного слова в первом тексте на первом языке; выбор по меньшей мере одного второго языка, причем первый язык отличается от любого из выбранных вторых языков; для каждого второго языка получение вычислительным устройством первого набора текстов на первом языке и второго набора текстов на втором языке, причем тексты первого набора на первом языке выровнены по отношению к текстам второго набора текстов на втором языке; сопоставление неизвестного слова с по меньшей мере одним словом во втором наборе текстов, выровненным с по меньшей мере одним неизвестным словом; выявление семантического класса, соответствующего по меньшей мере одному сопоставленному слову; и назначение семантического класса по меньшей мере одному неизвестному слову. 3 н. и 12 з.п. ф-лы, 18 ил.

Изобретение относится к компьютерной технике, а именно к анализу текстов. Технический результат - эффективная обработка новых слов, отсутствующих в используемом реестре значений, добавление этих понятий в реестр значений и использование их во время дальнейшего анализа. Способ выявления семантического значения неизвестного слова в задачах автоматической обработки естественного языка, содержащий: получение вычислительным устройством неизвестного слова; определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову; построение процессором с использованием корпусов текстов классификатора для неизвестного слова; классификацию неизвестного слова, основанную, по меньшей мере частично, на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов; и добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса. 3 н. и 18 з.п. ф-лы, 18 ил.

Изобретение относится к способам пополнения электронных словников - списков терминов с метками. Техническим результатом является повышение эффективности использования электронных словников в задачах анализа текста за счет обеспечения возможности назначения терминам осмысленных весов и автоматического пополнения словников с помощью обучающего множества текстов. В способе пополнения словника из обучающего множества электронных документов с помощью вычислительной машины (персонального компьютера, сервера и пр.) формируют обучающее подмножество, тексты всех электронных документов которого содержат термины словника. К словам, встречающимся в обучающем подмножестве, применяют критерии выбора характеристик. Выбранным с помощью критериев словам назначают метки, выбранным словам опционально назначают веса. Выбранные слова добавляют в словник с соответствующими метками (и весами). 2 н. и 14 з.п. ф-лы, 13 ил.

 


Наверх