Патенты автора Чулинин Юрий Георгиевич (RU)

Изобретение относится к системам и способам распознавания с использованием искусственного интеллекта. Технический результат заключается в упрощении структур одной или более моделей машинного обучения и уменьшении количества обрабатывающих и вычислительных ресурсов, необходимых для распознавания иероглифов. Результат достигается за счет того, что выполняют получение устройством обработки изображения иероглифа, подачу изображения иероглифа в качестве входной информации для обученной модели машинного обучения в целях определения комбинации компонентов на множестве позиций в иероглифе и классификацию иероглифа как определенного символа языка, исходя из определенной комбинации компонентов на множестве позиций в изображении иероглифа. Другой способ может включать обучение модели машинного обучения определению комбинации компонентов на множестве позиций. 3 н. и 17 з.п. ф-лы.15 ил.

Изобретение относится к области обработки изображений отсканированных документов и других изображений, содержащих текст. Технический результат заключается в повышении эффективности распознавания оптических символов. Технический результат достигается за счет идентификации изображений символов в содержащем текст отсканированном изображении документа; для каждой страницы документа, для каждого изображения символа на странице, идентификации каждой графемы из набора графем, которая соответствует нормированному изображению символа относительно эталона символа из набора эталонов символов, сортировки идентифицированных графем по частоте, с которой идентифицированные графемы соответствуют нормированному изображению символа относительно эталонов символа в наборе эталонов символов, и использования отсортированных идентифицированных графем для выбора кода символа, который представляет нормированное изображение символа; и подготовки обработанного документа, содержащего коды символов, которые представляют нормированные изображения символов из отсканированного изображения документа, и сохранения обработанного документа на одном или более из одного или более запоминающих устройств и модулей памяти. 3 н. и 17 з.п. ф-лы, 52 ил.

Изобретение относится к устройствам преобразования изображений. Технический результат заключается в повышении эффективности преобразования изображений документов в электронные документы. Такой результат достигается тем, что преобразовывают морфемы и слова изображений текста в параметризованные символы, проводят поиск аналогичных морфем и слов в электронном хранилище морфем и слов, закодированных в виде непараметризованных символов, и идентифицируют вероятные точки разделения символов и соответствующих путей перехода с использованием аналогичных морфем и слов, найденных в хранилище слов. 2 н. и 18 з.п. ф-лы, 72 ил.

Изобретение относится к компьютерной технике для распознавания символов. Технический результат заключается в повышении эффективности оптического распознавания символов. Технический результат достигается за счет обнаружения изображений символов в отсканированном изображении, содержащем текст; выполнения для каждого обнаруженного изображения символа предварительной обработки изображения символа для определения графем, связанных с эталонами символов, вычисленный уровень сходства которых с нормированным изображением символа превышает пороговый уровень сходства, и сортировки определенных графем по вычисленному уровню сходства; и использования отсортированных определенных графем с целью генерации кодов символов для изображений символов, которые хранятся в одном или более запоминающих устройствах. 3 н. и 17 з.п. ф-лы, 33 ил.

Изобретение относится к способам и устройствам преобразования изображений документов, содержащих текст на арабском языке и текст на других языках, в которых символы, соединяясь вместе, образуют слитные слова и фрагменты слов, в соответствующие электронные документы. Технический результат – повышение достоверности преобразования. Предложены многочисленные методы и средства, позволяющие эффективно осуществлять преобразование изображений документов в электронные документы, которые включают преобразование морфем и слов изображений текста в параметризованные символы, эффективный поиск аналогичных морфем и слов в электронном хранилище морфем и слов, закодированных в виде непараметризованных символов, и идентификацию вероятных точек разделения символов и соответствующих путей перехода с использованием аналогичных морфем и слов, найденных в хранилище слов. 2 н. и 20 з.п. ф-лы, 72 ил.

Изобретение относится к способам и системам автоматического определения ориентации областей изображений отсканированных документов. Технический результат – обеспечение возможности преобразования в соответствующие электронные документы печатных документов, содержащих текст на неалфавитных языках. В одном из вариантов реализации изобретения задействуют относительно небольшой набор символов ориентации, часто встречающихся в печатном тексте. При этом для, по меньшей мере, одного набора символов ориентации каждая из двух или более различных ориентаций содержащих символ подобластей в содержащей текст области отсканированного изображения документа сравнивается с каждым символом ориентации в, по меньшей мере, одном наборе символов ориентации, чтобы определить ориентацию для каждой из содержащих символы подобластей относительно исходной ориентации содержащей текст области. Выявленные для содержащих символы подобластей ориентации затем используются для определения ориентации содержащей текст области изображения отсканированного документа. 3 н. и 20 з.п. ф-лы, 43 ил.

Изобретение относится к автоматической обработке изображений отсканированных документов. Технический результат заключается в повышении точности преобразования печатных документов, содержащих текст на арабском языке и текст на других языках. Устройство, которое преобразует источники текста на естественных языках в базу данных морфем и слов естественного языка с возможностью поиска, содержит: один или более процессоров; одно или несколько запоминающих устройств; а также иерархически упорядоченную структуру данных, сохраненную в одном или нескольких запоминающих устройствах, каждое вхождение в которой соответствует морфеме, слову или фразе, представленной в виде последовательности непараметризованных символов, которые воспроизводят характерные для данного языка элементы, а также программу, которая обеспечивает извлечение морфем и слов из источников текста на одном из естественных языков для каждой извлеченной морфемы или слова, преобразование и сохранение непараметризованных символов в одном или нескольких запоминающих устройствах, и сохранение последовательности непараметризованных символов в иерархически упорядоченной структуре данных. 2 н. и 18 з.п. ф-лы, 72 ил.

Группа изобретений относится к технологиям автоматической обработки изображений отсканированных документов, содержащих текст. Техническим результатом является повышение эффективности оптического распознавания символов текста на различных языках. Предложено устройство для реализации способа определения возможного разделения изображения слова на изображения символов для преобразования изображения документа в электронный документ. Устройство содержит один или более процессоров, одно или несколько запоминающих устройств, а также программу, реализованную в виде набора цифровых команд, сохраненных на одном или нескольких запоминающих устройствах и исполняемых одним или несколькими процессорами. Упомянутая программа обеспечивает получение изображения строки текста на одном из языков, буквы которого не разделяются при письме пробелами, а также обеспечивает преобразование полученного изображения строки текста на одном из языков, буквы которого не разделяются при письме пробелами, в последовательность параметризованных символов, где каждый параметризованный символ соответствует одному, двум или большему количеству фрагментов текстовой строки на изображении. 2 н. и 18 з.п. ф-лы, 73 ил.

Изобретение относится к средствам распознавания документов. Техническим результатом является повышение достоверности определения наличия в тексте китайских, японских или корейских символов. В способе определения того, содержит ли текст китайские, японские или корейские символы получают изображение документа. Полученное изображение документа бинаризуется. На бинаризованном изображении документа производится поиск связных компонент. На основе полученных связных компонент выявляется множество фрагментов и определяется ориентация документа. Для каждого фрагмента из множества фрагментов формулируется гипотеза о принадлежности языку. Для гипотезы о принадлежности языку вычисляется оценка вероятности. Из множества фрагментов выбирается подмножество, имеющее наивысшие оценки вероятности. Гипотеза о принадлежности языку проверяется для каждого фрагмента из подмножества фрагментов. Решение о наличии китайских, японских и корейских символов принимается на основе, как минимум, проверки гипотезы о языке фрагментов выбранного подмножества. 3 н. и 17 з.п. ф-лы, 7 ил.

Группа изобретений относится к технологиям распознавания символов, соответствующих изображениям символов, полученных из изображения отсканированного документа или другого изображения, содержащего текст. Техническим результатом является обеспечение оптического распознавания символов на изображении документа. Предложена система оптического распознавания символов. Система содержит один или более процессоров, один или более модулей памяти, одно или более запоминающих устройств. Команды машинного кода, хранящиеся в запоминающих устройствах, при выполнении процессором управляют системой оптического распознавания символов для обработки содержащего текст отсканированного изображения документа за счет идентификации изображений символов в отсканированном изображении документа. Причем, для каждого выявленного изображения символа, начиная с корневого узла дерева решений, хранящегося в системе оптического распознавания символов, осуществляют рекурсивный обход дерева решений. В каждом узле один или несколько классификаторов выполняют распознавание изображения символа до тех пор, пока для данного изображения символа не будет получено решение «найдено». 3 н. и 20 з.п. ф-лы, 64 ил.

Изобретение относится к оптическому распознаванию символов. Техническим результатом является оптимизация оптического распознавания символов за счет использования леса решений. Предложенная система включает в себя команды в машинном коде при их исполнении процессором, управляющие системой оптического распознавания символов для обработки содержащего текст отсканированного изображения документа путем выполнения идентификации изображений символов в содержащем текст отсканированном изображении документа. Причем идентификация выполняется для каждой страницы документа и для каждого изображения символа на странице. Выполняют идентификацию набора подходящих структур данных эталона для изображения символа с использованием леса решений. Используют подходящие структуры данных эталона для определения набора подходящих графем и используют идентифицированный набор подходящих графем для выбора кода символа, который соответствует изображению символа. Подготавливают обработанный документ, содержащий коды символов, которые соответствуют изображениям символов из отсканированного изображения документа, и сохраняют обработанный документ в одном или более запоминающих устройств и модулей памяти. 3 н. и 17 з.п. ф-лы, 66 ил.

Изобретения относятся к способу и системе оптического распознавания символов. Техническим результатом является повышение эффективности распознавания символов посредством сокращения времени обработки документов. На первой стадии обработки каждое изображение символа связывается со множеством потенциальных графем. На второй стадии обработки каждое изображение символа оценивается относительно множества потенциальных графем, обнаруженного для изображения символа на первой стадии. В процессе обработки потенциальных графем представленные в настоящем документе способы и системы наблюдают за прогрессом обнаружения подходящей графемы и, если наблюдается недостаточный прогресс, прерывают обработку потенциальных графем и распознают изображение символа как область, содержащую несимвольный элемент, в изображении отсканированного документа или другом содержащем текст изображении. Далее осуществляют оценку каждой последовательной группы из одной или более потенциальных графем относительно возможного изображения символа. 3 н. и 16 з.п. ф-лы, 55 ил.

 


Наверх