Патенты автора Старостин Анатолий Сергеевич (RU)

Изобретение относится к области вычислительной техники для обработки естественного языка. Технический результат заключается в повышении эффективности обработки естественного языка в части выявления информационных объектов и отношений между ними. Технический результат достигается за счет идентификации с помощью первой модели классификатора для обработки первого множества атрибутов классификации, извлеченных из семантико-синтаксических структур, множества корневых составляющих, таких, что каждая корневая составляющая из множества корневых составляющих связана со спаном из множества спанов, где спан является фрагментом текста, и каждый спан представляет атрибут информационного объекта определенного онтологического класса; идентификации с помощью второй модели классификатора для обработки второго множества атрибутов классификации, извлеченных из семантико-синтаксических структур, дочерних составляющих каждой составляющей из множества корневых составляющих; и определения с помощью третьей модели классификатора для обработки третьего множества атрибутов классификации, извлеченных из семантико-синтаксических структур, связаны ли первый спан из множества спанов и второй спан из множества спанов с одним и тем же информационным объектом. 3 н. и 17 з.п. ф-лы, 19 ил.

Изобретение относится к обработке естественного языка. Техническим результатом является повышение точности интерпретации информации и снижение вычислительной сложности при обработке за счет создания универсальной технологии построения приложений для обработки на основе накопленных в системе знаний о языке и мире. В способе создания программ обработки естественного языка строят семантическую иерархию независимых от языка семантических сущностей, их свойств, возможных атрибутов, их взаимоотношений. Создают универсальную модель, релевантную по отношению к произвольному языку, включающую модели семантических, морфологических, лексических и синтаксических описаний. Создают первую программу обработки произвольного естественного языка. Наполняют данными зависимых от языка моделей морфологических описаний, лексических описаний и синтаксических описаний сущности указанного семантического описания. Создают вторую программу для обработки естественного языка на основе семантической иерархии, первой универсальной программы и зависимых от языка морфологических описаний, лексических описаний и синтаксических описаний. Используют вторую программу для обработки естественного языка. 17 н. и 3 з.п. ф-лы, 18 ил.

Изобретение относится к средствам для поиска в компьютерных системах и базах данных. Технический результат заключается в обеспечении возможности подбора музыкальной и текстовой информации друг к другу на основании их ритмических свойств. Способ включает индексацию текстовой информации, ввод запроса и поиск по индексу. Для индексации базы текстов, хранящихся в базе данных, с использованием системы поиска вычисляют ритмические характеристики текстов, а именно векторы, кодирующие ритмические свойства отдельных строк текста и всего текста в целом. Построение векторов системой поиска происходит в два этапа. На первом этапе строка сегментируется на слоги, после чего в строке автоматически проставляются ударения и на выходе первого этапа в строке текста расставлены границы слогов и для каждого из них указано, ударный это слог, безударный или система поиска не может однозначно определить его ударность. На втором этапе система поиска вычисляет вектор для каждой строки текста, после чего вычисляет агрегированный вектор для всего текста, который определяет ритмическую структуру этого текста. Агрегированный вектор сохраняют в хранилище векторов, поддерживающем функцию поиска ближайших соседей. Осуществляют ввод запроса в текстовом или псевдотекстовом виде для нахождения текстовых данных, подходящих звуковых данных. 2 н. и 3 з.п. ф-лы, 5 ил.

Изобретение относится к системам и способам обработки естественного языка. Техническим результатом является обеспечение возможности конечному пользователю извлекать информацию – сущности и факты и создавать онтологии в автоматическом режиме. В способе извлечения фактов из текстов на естественном языке получают идентификатор первого токена, содержащегося в тексте и включающего слово естественного языка, ссылающееся на первый информационный объект, представленный первой именованной сущностью. Получают идентификаторы первого множества слов, представляющего первый факт определенной категории фактов, связанный с первым информационным объектом некоторой категории информационных объектов. Определяют в тексте второе множество слов, включающее второй токен, ссылающийся на второй информационный объект, ассоциирующийся с указанной категорией информационных объектов. В ответ на получение подтверждения того, что второе множество слов представляет второй факт, связанный со вторым информационным объектом той же категории информационных объектов, извлекают второй факт и сохраняют его в форме RDF-графа. Изменяют параметр функции классификатора, которая дает значение, отражающее степень ассоциации данной семантической структуры с фактом из определенной категории фактов. 3 н. и 17 з.п. ф-лы, 27 ил.

Изобретение относится к системам и способам обработки естественного языка. Технический результат заключается в повышении степени близости семантических структур с определенным концептом онтологии. Способ поиска и извлечения сущностей в текстах на естественном языке включает получение вычислительным устройством посредством пользовательского интерфейса идентификаторов первого множества групп слов в тексте на естественном языке, ассоциацию объекта, выполнение семантико-синтаксического анализа текста на естественном языке для получения первого множества семантических структур, определение в тексте на естественном языке второго множества групп слов, в ответ на получение подтверждения того, что группа слов из второго множества групп слов представляет объект, ассоциированный с тем же концептом онтологии, изменение параметра модели классификации, используемой для классификации семантических структур, отражающего степень ассоциации данного объекта с соответствующим концептом онтологии. 3 н.п. и 15 з.п. ф-лы, 18 ил.

Изобретение относится к области автоматической обработки текстовых данных, представленных на естественных языках. Техническим результатом является повышение точности синтезирования текста на основе извлеченных данных - информационных объектов - из текста. В способе синтеза текста на естественном языке получают информационные объекта и производят выбор среди полученных информационных объектов информационных объектов и ассоциированных шаблонов синтеза в библиотеке шаблонов. При этом каждый шаблон синтеза включает семантико-синтаксическое дерево шаблона. Создают для каждого выбранного информационного объекта семантико-синтаксическое дерево синтеза на основе семантико-синтаксического дерева шаблона. Создают текст на естественном языке на основе каждого созданного семантико-синтаксического дерева. 3 н. и 15 з.п. ф-лы, 19 ил.

Изобретение относится к системам и методам создания технологий, систем и продуктов для автоматической обработки текстовой информации и извлечения информации из текстов на естественных языках. Техническим результатом является повышение точности представления и извлечения информации в системах автоматической обработки текстов. В способе для создания синтактико-семантических структур предложений естественного языка в системах автоматической обработки текстов генерируют синтаксическое дерево для каждого предложения естественного языка, включающего множество синтаксических узлов и множество древесных синтаксических связей. Генерируют семантическую структуру, соответствующую синтаксическому дереву и включающую множество семантических узлов, соответствующих множеству синтаксических узлов, и множество древесных семантических связей, соответствующих множеству древесных синтаксических связей. Причем если синтаксическое дерево включает два различных синтаксических узла, соответствующих одной сущности, то соединяют семантические узлы, соответствующие этим синтаксическим узлам, недревесной связью. 3 н. и 15 з.п. ф-лы, 24 ил.

Изобретение относится к области обработки текстов на естественном языке, в частности к созданию и использованию пользовательских онтологических моделей и пользовательских семантических словарей для обработки текстов, предоставленных пользователем на естественном языке. Техническим результатом является повышение точности обработки текстовых данных. Способ для создания и применения пользовательской онтологической модели для обработки предоставленного пользователем текста на естественном языке включает получение определений пользовательских онтологических объектов и создание пользовательской онтологической модели, включающей структуру пользовательского экземпляра на основе определения и имеющую идентификатор. Семантико-синтаксическое дерево, созданное на основе предоставленного пользователем текста, анализируется. Информационные объекты создаются при анализировании на основе пользовательских онтологических объектов. Выполняют дальнейшую обработку предоставленного пользователем текста на естественном языке. 3 н. и 43 з.п. ф-лы, 23 ил.

Изобретение относится к извлечению и интерпретации информации из неструктурированных текстов на естественных языках, в частности, к машинному извлечению и интерпретации информации в текстовых документах. Технический результат - эффективный анализ документов для извлечения и интерпретации информации в текстовых документах. Машинный способ извлечения информации из текстового документа, включающий выполнение семантико-синтаксического анализа предложений документа для создания семантико-синтаксических структур предложений, применение продукционных правил к семантико-синтаксическим структурам, чтобы создать набор логических утверждений об информационных объектах, содержащихся в данном документе, при этом продукционные правила основаны на лингвистических признаках и лексико-морфологических свойствах семантико-синтаксических структур и онтологий предметной области предложений, и использование набора логических утверждений об информационных объектах, содержащихся в документе для построения согласованного с онтологией RDF-графа. 3 н. и 13 з.п. ф-лы, 16 ил.

Изобретение относится к области обработки естественного языка, а именно к извлечению и поиску информации по коллекции документов. Технический результат - эффективная идентификация информационных объектов, представленных в документе, и информационных объектов в хранилище документов. Способ автоматической идентификации информационных объектов, представленных в документе, и информационных объектов в хранилище документов, соответствующих одному и тому же объекту реального мира, способ для компьютерной системы, заключающийся в том, что выполняют поиск шаблонов глобальной идентификации и комбинаций шаблонов глобальной идентификации в документе, выполняют поиск тех же шаблонов глобальной идентификации и их комбинаций в хранилище документов, производят поиск пар информационных объектов, информационного объекта из документа и информационного объекта из хранилища, удовлетворяющих одним и тем же комбинациям шаблонов, проверяют найденные пары на непротиворечивость и выбирают из них те информационные объекты, которые могут быть объединены и сохранены в хранилище в один объект, и добавляют информацию об одном или более информационном объекте из документа в хранилище документов. 3 н. и 18 з.п. ф-лы, 8 ил.

Изобретение относится к способу, системе и машиночитаемому носителю с компьютерным программным продуктом для создания и применения пользовательского семантического словаря для естественного языка. Технический результат заключается в обработке предоставленных пользователем текстов на естественном языке и достигается системой, выполняющей получение определения элемента пользовательского словаря, связанного с пользовательским онтологическим объектом; создание пользовательского семантического словаря на основе определения элементов пользовательского словаря, анализ аппаратным процессором предоставленного пользователем текста для определения части пользовательского текста, соответствующей семантико-синтаксическим данным; создание узла семантико-синтаксического дерева и дальнейшая обработка предоставленного пользователем текста на естественном языке с использованием созданного семантико-синтаксического дерева. Семантико-синтаксическое дерево содержит соединенные узлы, включая ссылки на пользовательский онтологический объект или ссылку на первую структуру семантического словаря. 4 н. и 27 з.п. ф-лы, 23 ил.

 


Наверх