Патенты автора Анисимович Константин Владимирович (RU)

Изобретение относится к способу и системе распознавания текста. Технический результат заключается в повышении эффективности и точности распознавания текста. В способе выполняют получение вычислительной системой изображения с текстом; выделение с помощью блока выделения признаков множества признаков из изображения; применение первого декодера к множеству признаков для генерации первого промежуточного вывода, причем промежуточный вывод представляет собой гипотезу последовательности символов текста; применение второго декодера к множеству признаков для генерации второго промежуточного вывода, где блок выделения признаков является общим для первого и второго декодеров; определение на основе языковой модели значения первой метрики качества для первого промежуточного вывода и значения второй метрики качества для второго промежуточного вывода; и в ответ на определение того, что значение первой метрики качества больше, чем значение второй метрики качества, выбор первого промежуточного вывода для представления текста. 3 н. и 17 з.п. ф-лы, 9 ил.

Изобретение относится к области вычислительной техники. Техническим результатом является обеспечение классификации документов. Раскрыт способ классификации документов, включающий создание вычислительной системой множества признаков изображений путем обработки изображений из множества документов; создание множества признаков одного или более текстов путем обработки текстов из множества документов; создание множества векторов признаков, таких, что каждый вектор признаков из множества векторов признаков включает по меньшей мере одно из следующего: подмножество множества признаков изображений и подмножество множества признаков текста; кластеризацию множества векторов признаков для получения множества кластеров; определение множества категорий документов, таких, что каждая категория документов из множества категорий документов определена соответствующим кластером признаков из множества кластеров признаков; обучение классификатора для получения одного или более значений, отражающих степень связанности одного или более исходных документов с одной или более категорией документов из множества категорий документов; и применение обученного классификатора для классификации одного или более документов с учетом указанных полученных одного или более значений. 3 н. и 17 з.п. ф-лы, 12 ил.

Изобретение относится к вычислительным системам. Технический результат заключается в расширении арсенала средств. Способ автоматического создания шаблонов продукционных правил в системах извлечения информации, включающий получение первого текстового фрагмента, содержащего первый идентификатор первого текстового токена, причем первый токен ссылается на первый информационный объект из первой категории информационных объектов, отображение, генерирующего шаблон, множества языковых характеристик первого токена, получение, генерирующего шаблон, атрибутов первого ввода, идентифицирующего атрибуты шаблона из множества лингвистических характеристик первого информационного объекта, генерирование первого шаблона, создание первого продукционного правила для первого шаблона, применение первого продукционного правила к частям первого текста на естественном языке, соответствующим первому шаблону, отображение, генерирующего шаблон, второго информационного объекта, идентифицированного с помощью продукционных правил в первом тексте на естественном языке. 3 н. и 14 з.п. ф-лы, 19 ил.

Изобретение относится к системам и способам распознавания символов с использованием искусственного интеллекта. Технический результат заключается в повышении эффективности распознавания текста за счет использования набора моделей машинного обучения, позволяющих осуществлять анализ контекста слов текста на изображении с высоким качеством. Такой результат достигается благодаря тому, что способ включает получение изображения текста, при этом текст на изображении содержит одно или более слов в одном или более предложениях; получение изображения текста в качестве первых исходных данных для набора обученных моделей машинного обучения, хранящего информацию о сочетаемости слов и частотности их совместного употребления в реальных предложениях; получение одного или более конечных выходных данных от набора обученных моделей машинного обучения, а также извлечение из одного или более конечных выходных данных одного или более предполагаемых предложений из текста на изображении. Каждое из одного или более предполагаемых предложений содержит вероятные последовательности слов. 4 н. и 17 з.п. ф-лы, 27 ил.

Группа изобретений относится к вычислительным системам и способам обработки естественного языка. Технический результат состоит в достижении высокой точности классификации при обучении классификатора на обучающих выборках относительно небольшого объема посредством использования результата скрытого слоя автоэнкодера для дообучения классификатора. Для достижения технического результата предложен способ, который включает создание, с помощью вычислительной системы, множества векторов признаков, обучение, с использованием множества векторов признаков, автоэнкодера, представленного искусственной нейронной сетью, создание, с использованием автоэнкодера, результата скрытого слоя и обучение, с использованием обучающей выборки данных, классификатора текста. Также предложена система, включающая память и процессор, соединенный с запоминающим устройством. И предложен постоянный машиночитаемый носитель данных, включающий исполняемые команды, которые при исполнении их вычислительным устройством приводят к выполнению вычислительным устройством операций. 3 н. и 17 з.п. ф-лы, 9 ил.

Изобретение относится к обработке естественного языка. Техническим результатом является повышение точности интерпретации информации и снижение вычислительной сложности при обработке за счет создания универсальной технологии построения приложений для обработки на основе накопленных в системе знаний о языке и мире. В способе создания программ обработки естественного языка строят семантическую иерархию независимых от языка семантических сущностей, их свойств, возможных атрибутов, их взаимоотношений. Создают универсальную модель, релевантную по отношению к произвольному языку, включающую модели семантических, морфологических, лексических и синтаксических описаний. Создают первую программу обработки произвольного естественного языка. Наполняют данными зависимых от языка моделей морфологических описаний, лексических описаний и синтаксических описаний сущности указанного семантического описания. Создают вторую программу для обработки естественного языка на основе семантической иерархии, первой универсальной программы и зависимых от языка морфологических описаний, лексических описаний и синтаксических описаний. Используют вторую программу для обработки естественного языка. 17 н. и 3 з.п. ф-лы, 18 ил.

Изобретение относится к средствам анализа текста. Технический результат заключается в уменьшении количества вычислительных ресурсов при распознание текста. Ядро системы классификации хранит в памяти несколько нейронных сетей, каждая из которых обучена распознавать множество из одного или более множеств путающихся графем, определенных в данных распознавания множества изображений документов. Получают входное изображение графемы, связанное с изображением документа, содержащим множество графем. Определяют множество вариантов распознавания входного изображения графемы, где множество вариантов распознавания включает множество целевых символов, которые сходны с изображением входной графемы. Выбирают первую нейронную сеть из множества нейронных сетей, причем первая нейронная сеть обучена распознавать первое множество путающихся графем, и где первое множество графем содержит как минимум часть множества вариантов распознавания для входного изображения графемы. Определяют класс графемы для входного изображения графемы с помощью выбранной первой нейронной сети. 3 н. и 17 з.п. ф-лы, 8 ил.

Изобретение относится к области обработки текста на естественном языке. Технический результат заключается в повышении точности анализа текста на естественном языке. Способ, заключающийся в создании устройством обработки начальной популяции и использовании системы Natural Language Compiler (NLC) для перевода предложения с исходного языка на целевой язык с помощью синтаксических и семантических описаний исходного предложения, построении вектора оценок качества, замене нескольких параметров в векторе параметров на скорректированные параметры, причем замена нескольких параметров включает случайный выбор первого параметра из вектора параметров и корректировку первого параметра для получения первого скорректированного параметра. Вычисление оценки качества для первого скорректированного параметра, сравнение оценки качества для первого скорректированного параметра с оценкой качества для первого параметра, замену первого параметра на первый скорректированный параметр, если оценка качества для первого скорректированного параметра лучше, чем оценка качества для первого параметра. 3 н. и 17 з.п. ф-лы, 2 ил.

Изобретение относится к обработке естественного языка. Технический результат направлен на автоматизацию процесса получения высокоточных размеченных текстов практически любого объема и содержания в соответствии с выбранным способом разметки и их использования в соответствии с выбранным способом разметки и их использования для машинного обучения в задачах обработки естественного языка. Способ создания обучающих выборок включает: выполнение вычислительной системой лексико-морфологического анализа текста на естественном языке, выполнение синтактико-семантического анализа текста на естественном языке для получения множества семантических структур, выбор из лексических, грамматических, синтаксических и семантических атрибутов семантических структур набора выходных атрибутов; и создание выходного текста и индекса, включающего символические идентификаторы одного или более значения атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке, и указанное одно или более значение атрибутов сопровождается значением вероятности. 3 н. и 17 з.п. ф-лы, 14 ил.

Изобретение относится к системам и способам обработки естественного языка. Техническим результатом является повышение точности выполнения классификации текстов, в том числе на различных языках. В способе классификации текстов на естественном языке семантико-синтаксический анализ текста на естественном языке для создания семантической структуры, включающей набор семантических классов. Связывают первый семантический класс с первым значением, отражающим значение некоторого атрибута семантического класса. Выявляют второй семантический класс, связанный с первым семантическим классом заданными семантическими отношениями, и связывают его со вторым значением, отражающим указанный атрибут семантического класса. При этом второе значение определяется применением заданной трансформации к первому значению. Вычисляют признак текста на естественном языке на основе первого значения и второго значения и определяют с помощью модели классификатора с помощью вычисленного признака текста степени соотнесения текста на естественном языке с конкретной категорией из заданного набора категорий. 3 н. и 17 з.п. ф-лы, 15 ил.

Изобретение относится в целом к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение точности результатов классификации. Для оценки параметров текстовых классификаторов на основе семантических признаков выполняют с помощью устройства обработки семантико-синтаксический анализ текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов. Выявляют признак текста на естественном языке, извлекаемый на основе набора значений из множества параметров извлечения признаков. Разделяют корпус текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке. Определяют набор значений параметров извлечения признаков с учетом категории обучающей выборки. Оценивают полученный набор значений параметров извлечения признаков с помощью тестовой выборки. 4 н. и 16 з.п. ф-лы, 15 ил.

Изобретение относится к области многоэтапного распознавания именованных сущностей на основе морфологических и семантических признаков текстов на естественном языке. Техническим результатом является достижение высокой точности и/или полноты распознавания именованных сущностей в текстах на естественном языке в сочетании с приемлемой скоростью распознавания за счет двухэтапного применения различающихся по глубине методов анализа текста в зависимости от результата предыдущего этапа. Один из примеров способа включает: лексико-морфологический анализ текста на естественном языке, содержащего множество токенов, где каждый токен содержит по крайней мере одно слово естественного языка; определение на основе лексико-морфологического анализа одного или более лексических значений и грамматических значений, связанных с каждым токеном в множестве токенов; вычисление для каждого токена в множестве токенов одной или более функций классификатора с использованием лексических и грамматических значений, ассоциированных с токеном, причем значение каждой функции классификатора указывает на оценку степени ассоциации токена с категорией именованных сущностей; синтактико-семантический анализ по крайней мере части текста на естественном языке для получения множества семантических структур, представляющих часть текста на естественном языке; и интерпретация семантических структур с использованием набора продукционных правил для определения, для одного или более токенов, входящих в часть текста на естественном языке, оценки степени ассоциации токена с категорией именованных сущностей. 3 н. и 17 з.п. ф-лы, 16 ил.

Изобретение относится к выполнению синтаксического анализа текста. Технический результат - оценка всех возможных синтаксических комбинаций быстро и без потери истинного смысла текста. Для этого в некоторых вариантах осуществления этот способ включает выполнение грубого синтаксического анализа текста, построение графа обобщенных составляющих текста и фильтрацию дуг графа обобщенных составляющих с помощью комбинированного классификатора, который включает древесный классификатор и один или несколько линейных классификаторов. Комбинированный классификатор обучается с использованием параллельного анализа неразмеченных двуязычных текстовых корпусов. 5 н. и 18 з.п. ф-лы, 5 ил.

Изобретение относится к распознаванию образов из графического изображения, и в частности к распознаванию текста на изображении документа в электронном виде

 


Наверх