Патенты автора Мацкевич Степан Евгеньевич (RU)

Изобретение относится к вычислительным системам. Технический результат заключается в расширении арсенала средств. Способ автоматического создания шаблонов продукционных правил в системах извлечения информации, включающий получение первого текстового фрагмента, содержащего первый идентификатор первого текстового токена, причем первый токен ссылается на первый информационный объект из первой категории информационных объектов, отображение, генерирующего шаблон, множества языковых характеристик первого токена, получение, генерирующего шаблон, атрибутов первого ввода, идентифицирующего атрибуты шаблона из множества лингвистических характеристик первого информационного объекта, генерирование первого шаблона, создание первого продукционного правила для первого шаблона, применение первого продукционного правила к частям первого текста на естественном языке, соответствующим первому шаблону, отображение, генерирующего шаблон, второго информационного объекта, идентифицированного с помощью продукционных правил в первом тексте на естественном языке. 3 н. и 14 з.п. ф-лы, 19 ил.

Изобретение относится к системе и способам извлечения информации из текстов на естественном языке. Техническим результатом является повышение эффективности и качества извлечения информации из текстов на естественном языке. Способ извлечения информации из текстов на естественном языке включает: обучение классификатора извлечения информации для извлечения первого множества информационных объектов из текста на естественном языке, причем определение классификатора извлечения информации включает один или более гиперпараметров; получение списка извлеченных информационных объектов путем выполнения функции арбитража конфликтов по отношению к множеству конфликтующих информационных объектов; изменение значений гиперпараметров классификатора извлечения информации; и оптимизацию показателя качества извлечения информации для списка извлеченных информационных объектов путем итеративного повторения операций обучения классификатора извлечения информации, выполнения функции арбитража конфликтов и изменения значений гиперпараметров. 4 н. и 21 з.п. ф-лы, 16 ил.

Изобретение относится к средствам извлечения фактов из текстов на естественных языках. Технический результат заключается в повышении эффективности и качества извлечения информации. Извлекают из текста на естественном языке первое множество информационных объектов. Извлекают из текста на естественном языке второе множество информационных объектов. Создают промежуточный перечень информационных объектов, включающий по меньшей мере подмножество первого множества информационных объектов и по меньшей мере подмножество второго множества информационных объектов. Выявляют в промежуточном перечне информационных объектов множества конфликтующих информационных объектов, в котором первый информационный объект из множества конфликтующих информационных объектов принадлежит первому множеству информационных объектов, а второй информационный объект из множества конфликтующих информационных объектов принадлежит второму множеству информационных объектов. Создают окончательный перечень информационных объектов, извлеченных из текста на естественном языке, путем применения к множеству конфликтующих информационных объектов функции «арбитража» конфликтующих объектов, которая выполняет по меньшей мере одно из следующих действий: изменение первого информационного объекта, удаление первого информационного объекта или слияние двух и более информационных объектов из множества конфликтующих информационных объектов. 3 н. и 17 з.п. ф-лы, 16 ил.

Изобретение относится к области вычислительной техники для обработки естественного языка. Технический результат заключается в повышении эффективности обработки естественного языка в части выявления информационных объектов и отношений между ними. Технический результат достигается за счет идентификации с помощью первой модели классификатора для обработки первого множества атрибутов классификации, извлеченных из семантико-синтаксических структур, множества корневых составляющих, таких, что каждая корневая составляющая из множества корневых составляющих связана со спаном из множества спанов, где спан является фрагментом текста, и каждый спан представляет атрибут информационного объекта определенного онтологического класса; идентификации с помощью второй модели классификатора для обработки второго множества атрибутов классификации, извлеченных из семантико-синтаксических структур, дочерних составляющих каждой составляющей из множества корневых составляющих; и определения с помощью третьей модели классификатора для обработки третьего множества атрибутов классификации, извлеченных из семантико-синтаксических структур, связаны ли первый спан из множества спанов и второй спан из множества спанов с одним и тем же информационным объектом. 3 н. и 17 з.п. ф-лы, 19 ил.

Изобретение относится к извлечению информации из текстов на естественных языках. Техническим результатом является повышение точности сентиментного анализа текстов на естественном языке, осуществляемого на уровне аспектов текстов. В способе сентиментного анализа текстов на естественном языке выполняют синтактико-семантический анализ части текста на естественном языке для получения множества синтактико-семантических структур. Выполняют интерпретацию синтактико-семантических структур с помощью набора продукционных правил для обнаружения в части текста на естественном языке аспектного термина, представляющего аспект, связанный с целевой сущностью. Вычисляют с помощью характеристик текста, полученных при синтактико-семантическом анализе, значение функции классификатора для определения тональности, связанной с аспектным термином. Создают отчет, содержащий иерархический список аспектных терминов, включающих выявленные аспекты и тональности выявленных аспектов. Определяют с использованием обучающей выборки данных и подтверждающей выборки данных параметр функции классификатора, причем обучающая выборка данных включает обучающий текст на естественном языке, содержащий множество аспектных терминов. 3 н. и 11 з.п. ф-лы, 21 ил.

Изобретение относится к обработке текстов на естественном языке. Техническим результатом является повышение объема извлечения информации с учетом возможной неоднозначности предложений естественного языка и альтернативных вариантов семантико-синтаксического разбора. В способе извлечения информации из текстов на естественном языке выполняют семантико-синтаксический анализ части текста на естественном языке с целью получения множества семантико-синтаксических структур, включающего первую и вторую альтернативные семантико-синтаксические структуры. Объединяют множество структур с целью получения объединенной семантико-синтаксической структуры. Исключают дублирующие семантико-синтаксические подструктуры из объединенной структуры. Выявляют в пределах указанной части текста информационные объекты путем интерпретации объединенной структуры с целью установления ассоциативной связи токенов, образованных указанной частью текста, с некоторой категорией информационных объектов. При этом интерпретация объединенной структуры производится с учетом значения метрики качества, ассоциированной с частью первой альтернативной структуры. 3 н. и 13 з.п. ф-лы, 13 ил.

Изобретение относится к вычислительным системам. Технический результат направлен на повышение точности, извлекаемой из текстов на естественном языке информации. Способ извлечения информации из текстов на естественном языке включает выполнение обрабатывающим устройством семантико-синтаксического анализа по меньшей мере одной части текста на естественном языке для получения множества семантических структур, интерпретацию с помощью набора продукционных правил, определение значения по меньшей мере одного атрибута, ассоциированного с по меньшей мере одним информационным объектом из множества информационных объектов, определение степени уверенности, ассоциированной со значением по меньшей мере одного атрибута, при определении того, что степень уверенности ниже порогового значения уверенности, подтверждение и/или изменение значения по меньшей мере одного атрибута, добавление к обучающей выборке данных по меньшей мере одной части текста на естественном языке, определение с помощью обучающей выборки данных по меньшей мере одного параметра указанной функции уверенности. 3 н. и 22 з.п. ф-лы, 16 ил.

Изобретение относится к вычислительным системам извлечения информации на естественном языке. Технический результат заключается в повышении точности оценки извлекаемой информации. Способ извлечения информации из текстов на естественном языке включает: получение текста на естественном языке с помощью устройства обработки; выполнение синтактико-семантического анализа текста на естественном языке для получения множества семантических структур, интерпретацию множества семантических структур с помощью набора продукционных правил для получения множества элементов данных, каждый из которых связывает значение атрибута с информационным объектом, представляющим сущность, определение как минимум для одного элемента данных в множестве элементов данных степени уверенности путем вычисления функции уверенности, представленной посредством линейного классификатора и связанной с набором продукционных правил. 3 н. и 17 з.п. ф-лы, 17 ил.

Изобретение относится к области автоматической обработки естественного языка, в частности к способу и устройству для хранения и поиска информации, извлекаемой из текстовых документов. Техническим результатом является повышение скорости навигации и поиска данных в хранилище извлеченных данных. В способе для хранения, поиска и обновления данных, извлекаемых из текстовых документов, извлекают информационный объект из текстового документа и формируют триплет вида <субъект, предикат, объект>. Организуют доступ к хранилищу извлеченной информации, содержащему RDF- граф, включающий множество триплетов вида <субъект, предикат, объект> для множества объектов. Осуществляют поиск в хранилище извлеченной информации второго информационного объекта, представляющего тот же объект реального мира, что и первый объект, где любые два объекта отождествляются, если они имеют общий объектный параметр, и где поиск включает выбор и поиск в таблице идентификаторов. Если второй информационный объект найден, обновляют состояние хранилища извлеченной информации посредством добавления триплета <субъект, предикат, объект> о первом информационном объекте к основному RDF-графу хранилища и обновляют индекс в таблице. 3 н. и 23 з.п. ф-лы, 11 ил.

Изобретение относится к области обработки естественного языка, а именно к извлечению и поиску информации по коллекции документов. Технический результат - эффективная идентификация информационных объектов, представленных в документе, и информационных объектов в хранилище документов. Способ автоматической идентификации информационных объектов, представленных в документе, и информационных объектов в хранилище документов, соответствующих одному и тому же объекту реального мира, способ для компьютерной системы, заключающийся в том, что выполняют поиск шаблонов глобальной идентификации и комбинаций шаблонов глобальной идентификации в документе, выполняют поиск тех же шаблонов глобальной идентификации и их комбинаций в хранилище документов, производят поиск пар информационных объектов, информационного объекта из документа и информационного объекта из хранилища, удовлетворяющих одним и тем же комбинациям шаблонов, проверяют найденные пары на непротиворечивость и выбирают из них те информационные объекты, которые могут быть объединены и сохранены в хранилище в один объект, и добавляют информацию об одном или более информационном объекте из документа в хранилище документов. 3 н. и 18 з.п. ф-лы, 8 ил.

Изобретение относится к области распределения задач сервером вычислительной системы. Техническим результатом является повышение эффективности динамического распределения заданий сервером по обработчикам вычислительной системы. Способ распределения задач сервером вычислительной системы заключается в том, что определяют совокупное число свободных обработчиков вычислительной системы, доступных для предоставления имеющимся заданиям, включающее множество обработчиков, которые могут быть предоставлены для выполнения обычных задач, и множество обработчиков, составляющих неприкосновенный запас; однократно выбирают значение коэффициента доступности; назначают каждой последующей в очереди задаче число обработчиков из условия наличия свободных обработчиков, которые могут быть предоставлены для выполнения обычных задач, при этом число назначаемых обработчиков не больше, чем число доступных в данный момент времени обработчиков, которые могут быть предоставлены для выполнения обычных задач, умноженное на коэффициент доступности, но не менее одного такого обработчика; в случае отсутствия свободных обработчиков, которые могут быть предоставлены для выполнения обычных задач, следующей задаче назначают, по меньшей мере, один обработчик из неприкосновенного запаса. 3 н. и 15 з.п. ф-лы, 8 ил.

 


Наверх