Патенты автора Инденбом Евгений Михайлович (RU)

Изобретение относится к способам и машиночитаемому носителю данных для обучения нейронных сетей. Технический результат заключается в повышении качества разметки входных последовательностей, выполняемой нейронной сетью. В способе выполняют определение первого тега, связанного с текущим токеном, обрабатываемым нейронной сетью, второго тега, связанного с предыдущим токеном, обработанным нейронной сетью перед обработкой текущего токена, третьего тега, связанного со следующим токеном, который будет обработан нейронной сетью после обработки текущего токена; вычисление для обучающей выборки данных значения функции потерь, отражающего первое, второе и третье значения потерь, представленные соответственно первой разницей между первым тегом и первой меткой, связанной с текущим словом обучающей выборки данных, второй разницей между вторым тегом и второй меткой, связанной с предыдущим словом обучающей выборки данных, третьей разницей между третьим тегом и третьей меткой, связанной с последующим токеном обучающей выборки данных; и настройку одного или более параметра нейронной сети в зависимости от значения функции потерь. 3 н. и 17 з.п. ф-лы, 5 ил.

Группа изобретений относится к вычислительным системам и может быть использована для построения и обработки модели естественного языка. Техническим результатом является улучшение предсказания вероятности появления лингвистической единицы. Способ содержит следующие этапы: получение множества строк, где каждая строка из множества строк содержит множество символов; для каждой строки из множества строк создание обрабатывающим устройством первой последовательности векторов исходя, по меньшей мере, из максимальной длины слова для каждого символа в строке; передача модулю машинного обучения первой последовательности векторов для каждой строки из множества строк; получение от модуля машинного обучения вероятности появления каждой строки из множества строк; добавление строки к модели естественного языка на основании значения полученной от модуля машинного обучения вероятности появления и использование полученной модели в задачах обработки естественного языка. 3 н. и 17 з.п. ф-лы, 5 ил.

Изобретение относится к области вычислительных систем, способам обработки естественного языка. Технический результат заключается в повышении эффективности и качества извлечения информации. Технический результат достигается за счет извлечения вычислительной системой из текста на естественном языке множества признаков, ассоциированных с каждым текстовым сегментом из множества текстовых сегментов, ассоциирования одного или более тегов с каждым текстовым сегментом из множества текстовых сегментов путем обработки с использованием классификатора первого этапа извлеченных признаков, извлечения, из локального контекста токена-кандидата текстового сегмента из множества текстовых сегментов, множества признаков, связанного с токеном-кандидатом, обработки, с использованием классификатора второго этапа, комбинации из множества локальных признаков и тегов, ассоциированных с текстовыми сегментами, для определения степени ассоциированности информационного объекта, на который ссылается токен-кандидат, с категорией информационных объектов. 3 н. и 17 з.п. ф-лы, 14 ил.

Группа изобретений относится к вычислительным системам и способам обработки естественного языка. Технический результат состоит в достижении высокой точности классификации при обучении классификатора на обучающих выборках относительно небольшого объема посредством использования результата скрытого слоя автоэнкодера для дообучения классификатора. Для достижения технического результата предложен способ, который включает создание, с помощью вычислительной системы, множества векторов признаков, обучение, с использованием множества векторов признаков, автоэнкодера, представленного искусственной нейронной сетью, создание, с использованием автоэнкодера, результата скрытого слоя и обучение, с использованием обучающей выборки данных, классификатора текста. Также предложена система, включающая память и процессор, соединенный с запоминающим устройством. И предложен постоянный машиночитаемый носитель данных, включающий исполняемые команды, которые при исполнении их вычислительным устройством приводят к выполнению вычислительным устройством операций. 3 н. и 17 з.п. ф-лы, 9 ил.

Изобретение в целом относится к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение эффективности извлечения информации за счет сокращения времени предобработки документов и повышение точности извлекаемой информации. В способе автоматической сегментации текстового документа выполняют сегментацию для разметки неразмеченного целевого текста для получения множества целевых сегментов-кандидатов, принадлежащих к типам сегментов из множества типов сегментов. Выявляют атрибуты целевого текста в первом целевом сегменте-кандидате из множества целевых сегментов-кандидатов. Анализируют атрибуты целевого текста в первом целевом сегменте-кандидате с использованием первого классификатора типа сегмента из множества классификаторов для определения первого целевого сегмента-кандидата как имеющего первый тип сегмента. Причем первый классификатор типа сегмента был обучен определять сегменты как соответствующие первому типу сегментов на размеченном тексте. Анализируют текст первого целевого сегмента-кандидата исходя из отнесения первого целевого сегмента-кандидата к первому типу сегментов. 3 н. и 15 з.п. ф-лы, 4 ил.

Изобретение относится к способам восстановления текстовых аннотаций в системах извлечения информации из текстов на естественном языке и постоянному машиночитаемому носителю данных. Технический результат заключается в восстановлении текстовых аннотаций, связанных с информационными объектами и атрибутами информационных объектов. Способ включает в себя получение текста на естественном языке, извлечение из текста на естественном языке одного или более информационного объекта, где каждый информационный объект связан с одним или более атрибутами, при этом указанное извлечение включает определение значения степени уверенности, ассоциированного с атрибутом каждого информационного объекта, верификацию значений атрибутов множества информационных объектов, идентификацию во множестве информационных объектов такого информационного объекта, для которого по меньшей мере один атрибут определенного информационного объекта не был связан с по меньшей мере одной текстовой аннотацией, и восстановление текстовой аннотации, связанной с атрибутом определенного информационного объекта, где текстовая аннотация представлена фрагментом текста на естественном языке, соответствующим значению атрибута. 3 н. и 13 з.п. ф-лы, 25 ил.

Изобретение относится к средством проецирования разметки документа. Технический результат заключается в повышении эффективности извлечения информации за счет сокращения времени предобработки и в повышении точности извлекаемой информации. Получают целевой документ, содержащий текстовый контент. Определяют набор похожих документов с использованием индекса сохраненных документов, при этом набор похожих документов похож на целевой документ. Выбирают первый похожий документ из набора похожих документов, который наиболее похож на целевой документ. Определяют одну или более частей текстового контента в первом похожем документе, отличающихся от соответствующих одной или более частей текстового контента в целевом документе. Определяют первое положение первой разметки в первом похожем документе. Определяют проецируемую разметку для целевого документа с учетом одного или более различий между первой частью текстового контента первого похожего документа и соответствующей частью текстового контента целевого документа и сохраняют проецируемую разметку для целевого документа. 3 н. и 27 з.п. ф-лы, 8 ил.

Изобретение относится к системам и способам обработки естественного языка. Техническим результатом является повышение точности выполнения классификации текстов, в том числе на различных языках. В способе классификации текстов на естественном языке семантико-синтаксический анализ текста на естественном языке для создания семантической структуры, включающей набор семантических классов. Связывают первый семантический класс с первым значением, отражающим значение некоторого атрибута семантического класса. Выявляют второй семантический класс, связанный с первым семантическим классом заданными семантическими отношениями, и связывают его со вторым значением, отражающим указанный атрибут семантического класса. При этом второе значение определяется применением заданной трансформации к первому значению. Вычисляют признак текста на естественном языке на основе первого значения и второго значения и определяют с помощью модели классификатора с помощью вычисленного признака текста степени соотнесения текста на естественном языке с конкретной категорией из заданного набора категорий. 3 н. и 17 з.п. ф-лы, 15 ил.

Изобретение относится к области многоэтапного распознавания именованных сущностей на основе морфологических и семантических признаков текстов на естественном языке. Техническим результатом является достижение высокой точности и/или полноты распознавания именованных сущностей в текстах на естественном языке в сочетании с приемлемой скоростью распознавания за счет двухэтапного применения различающихся по глубине методов анализа текста в зависимости от результата предыдущего этапа. Один из примеров способа включает: лексико-морфологический анализ текста на естественном языке, содержащего множество токенов, где каждый токен содержит по крайней мере одно слово естественного языка; определение на основе лексико-морфологического анализа одного или более лексических значений и грамматических значений, связанных с каждым токеном в множестве токенов; вычисление для каждого токена в множестве токенов одной или более функций классификатора с использованием лексических и грамматических значений, ассоциированных с токеном, причем значение каждой функции классификатора указывает на оценку степени ассоциации токена с категорией именованных сущностей; синтактико-семантический анализ по крайней мере части текста на естественном языке для получения множества семантических структур, представляющих часть текста на естественном языке; и интерпретация семантических структур с использованием набора продукционных правил для определения, для одного или более токенов, входящих в часть текста на естественном языке, оценки степени ассоциации токена с категорией именованных сущностей. 3 н. и 17 з.п. ф-лы, 16 ил.

Изобретение относится к технологиям информационного поиска. Техническим результатом является повышение эффективности информационного поиска за счет получения результатов, имеющих повышенную степень релевантности, с высокой скоростью. В способе организации поиска в корпусах электронных текстов осуществляют семантико-синтаксический анализ поискового запроса, включая построение ранжированного списка возможных лексических значений для слов запроса, где каждое из лексических значений связано с соответствующим семантическим классом. Составляют список синонимов для лексических значений из ранжированного списка. Ранжируют синонимы для лексических значений и формируют варианты запросов с учетом ранжированных синонимов. Вычисляют оценку соответствия вариантов запросов исходному поисковому запросу. Выполняют поиск текстовых фрагментов в корпусах электронных текстов, удовлетворяющих запросу для вариантов запроса, при этом поиск включает семантико-синтаксический анализ найденных текстовых фрагментов. Вычисляют оценку соответствия лексических значений слов в найденных фрагментах лексическим значениям слов варианта исходного запроса. Ранжируют найденные текстовые фрагменты в соответствии с вычисленной оценкой соответствия. 2 н. и 18 з.п. ф-лы, 14 ил.

Изобретение относится к средствам обработки естественного языка. Технический результат заключается в повышении эффективности решения задач обработки текстов на естественном языке. Указанный результат достигается за счет выполнения этапов способа выявления словосочетаний в текстах на естественном языке. При этом используют вычислительное устройство, с помощью которого выполняют семантико-синтаксический анализ текста на естественном языке для получения множества семантических структур. Далее формируют исходный список сочетаний слов с учетом отношений, определенных семантическими структурами. Составляют список словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов, где применение эвристического фильтра основано на использовании метрики качества, представляющей функцию от частот семантических классов и частоты отношений между словами в составе словосочетания. Используют список словосочетаний для выполнения операции обработки естественного языка. 3 н. и 22 з.п. ф-лы, 15 ил.

 


Наверх