Патенты автора Булгаков Илья Александрович (RU)

Изобретение относится к системе и способам извлечения информации из текстов на естественном языке. Техническим результатом является повышение эффективности и качества извлечения информации из текстов на естественном языке. Способ извлечения информации из текстов на естественном языке включает: обучение классификатора извлечения информации для извлечения первого множества информационных объектов из текста на естественном языке, причем определение классификатора извлечения информации включает один или более гиперпараметров; получение списка извлеченных информационных объектов путем выполнения функции арбитража конфликтов по отношению к множеству конфликтующих информационных объектов; изменение значений гиперпараметров классификатора извлечения информации; и оптимизацию показателя качества извлечения информации для списка извлеченных информационных объектов путем итеративного повторения операций обучения классификатора извлечения информации, выполнения функции арбитража конфликтов и изменения значений гиперпараметров. 4 н. и 21 з.п. ф-лы, 16 ил.

Изобретение относится к средствам извлечения фактов из текстов на естественных языках. Технический результат заключается в повышении эффективности и качества извлечения информации. Извлекают из текста на естественном языке первое множество информационных объектов. Извлекают из текста на естественном языке второе множество информационных объектов. Создают промежуточный перечень информационных объектов, включающий по меньшей мере подмножество первого множества информационных объектов и по меньшей мере подмножество второго множества информационных объектов. Выявляют в промежуточном перечне информационных объектов множества конфликтующих информационных объектов, в котором первый информационный объект из множества конфликтующих информационных объектов принадлежит первому множеству информационных объектов, а второй информационный объект из множества конфликтующих информационных объектов принадлежит второму множеству информационных объектов. Создают окончательный перечень информационных объектов, извлеченных из текста на естественном языке, путем применения к множеству конфликтующих информационных объектов функции «арбитража» конфликтующих объектов, которая выполняет по меньшей мере одно из следующих действий: изменение первого информационного объекта, удаление первого информационного объекта или слияние двух и более информационных объектов из множества конфликтующих информационных объектов. 3 н. и 17 з.п. ф-лы, 16 ил.

Изобретение относится к способам восстановления текстовых аннотаций в системах извлечения информации из текстов на естественном языке и постоянному машиночитаемому носителю данных. Технический результат заключается в восстановлении текстовых аннотаций, связанных с информационными объектами и атрибутами информационных объектов. Способ включает в себя получение текста на естественном языке, извлечение из текста на естественном языке одного или более информационного объекта, где каждый информационный объект связан с одним или более атрибутами, при этом указанное извлечение включает определение значения степени уверенности, ассоциированного с атрибутом каждого информационного объекта, верификацию значений атрибутов множества информационных объектов, идентификацию во множестве информационных объектов такого информационного объекта, для которого по меньшей мере один атрибут определенного информационного объекта не был связан с по меньшей мере одной текстовой аннотацией, и восстановление текстовой аннотации, связанной с атрибутом определенного информационного объекта, где текстовая аннотация представлена фрагментом текста на естественном языке, соответствующим значению атрибута. 3 н. и 13 з.п. ф-лы, 25 ил.

Изобретение относится к способу, машиночитаемому носителю данных и системе извлечения данных из структурированного документа. Технический результат заключается в повышении точности формирования объекта структурированного документа за счет дополнительного анализа таблицы и модификации формируемого объекта данных, представленного таблицей, на основе этого анализа. Способ заключается в получении вычислительным устройством таблицы, содержащей текст на естественном языке, идентификации заголовка таблицы и множества ячеек, образующих строки и столбцы, выполнении семантико-синтаксического анализа текста на естественном языке для получения множества семантических структур, интерпретации множества семантических структур с использованием первого набора продукционных правил для получения объекта данных, представленного таблицей, где продукционные правила этого набора включают логические выражения, определенные на структурных шаблонах, выполнении анализа заголовка таблицы для определения множества онтологических классов, ассоциированных с соответствующими столбцами таблицы, и модификации объекта данных, представленного таблицей, используя второй набор продукционных правил, где продукционные правила этого набора связаны с онтологическими классами, ассоциированными со столбцами указанной таблицы. 3 н. и 15 з.п. ф-лы, 19 ил.

Изобретение относится к области обработки текстов на естественном языке, в частности к созданию и использованию пользовательских онтологических моделей и пользовательских семантических словарей для обработки текстов, предоставленных пользователем на естественном языке. Техническим результатом является повышение точности обработки текстовых данных. Способ для создания и применения пользовательской онтологической модели для обработки предоставленного пользователем текста на естественном языке включает получение определений пользовательских онтологических объектов и создание пользовательской онтологической модели, включающей структуру пользовательского экземпляра на основе определения и имеющую идентификатор. Семантико-синтаксическое дерево, созданное на основе предоставленного пользователем текста, анализируется. Информационные объекты создаются при анализировании на основе пользовательских онтологических объектов. Выполняют дальнейшую обработку предоставленного пользователем текста на естественном языке. 3 н. и 43 з.п. ф-лы, 23 ил.

 


Наверх