Патенты автора Дерягин Дмитрий Георгиевич (RU)

В настоящем документе представлены системы и способы для получения изображения, по меньшей мере, части документа и определения множества точек деления, делящих изображение на потенциальные сегменты; создания графа линейного деления (ГЛД), содержащего множество вершин с использованием множества точек деления и множества ребер, соединяющих множество вершин; идентификации пути ГЛД, имеющего значение метрики качества выше порогового значения, где путь выбирается из множества путей ГЛД и содержит одно или более ребер, а значение метрики качества выводится с использованием нейронной сети, классифицирующей каждый из множества пикселей изображения; а также создания одного или более блоков изображения, где каждый из одного или более блоков соответствует ребру идентифицированного пути и представляет часть изображения, связанного с типом объекта. 3 н. и 17 з.п. ф-лы, 10 ил.

Изобретение относится к способам и системам автоматического определения ориентации областей изображений отсканированных документов. Технический результат – обеспечение возможности преобразования в соответствующие электронные документы печатных документов, содержащих текст на неалфавитных языках. В одном из вариантов реализации изобретения задействуют относительно небольшой набор символов ориентации, часто встречающихся в печатном тексте. При этом для, по меньшей мере, одного набора символов ориентации каждая из двух или более различных ориентаций содержащих символ подобластей в содержащей текст области отсканированного изображения документа сравнивается с каждым символом ориентации в, по меньшей мере, одном наборе символов ориентации, чтобы определить ориентацию для каждой из содержащих символы подобластей относительно исходной ориентации содержащей текст области. Выявленные для содержащих символы подобластей ориентации затем используются для определения ориентации содержащей текст области изображения отсканированного документа. 3 н. и 20 з.п. ф-лы, 43 ил.

Изобретение относится к средствам распознавания документов. Техническим результатом является повышение достоверности определения наличия в тексте китайских, японских или корейских символов. В способе определения того, содержит ли текст китайские, японские или корейские символы получают изображение документа. Полученное изображение документа бинаризуется. На бинаризованном изображении документа производится поиск связных компонент. На основе полученных связных компонент выявляется множество фрагментов и определяется ориентация документа. Для каждого фрагмента из множества фрагментов формулируется гипотеза о принадлежности языку. Для гипотезы о принадлежности языку вычисляется оценка вероятности. Из множества фрагментов выбирается подмножество, имеющее наивысшие оценки вероятности. Гипотеза о принадлежности языку проверяется для каждого фрагмента из подмножества фрагментов. Решение о наличии китайских, японских и корейских символов принимается на основе, как минимум, проверки гипотезы о языке фрагментов выбранного подмножества. 3 н. и 17 з.п. ф-лы, 7 ил.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении возможности выявлять на изображении документа многоугольный объект, относящийся к снимку экрана. Способ обработки электронных документов включает получение изображения по меньшей мере части документа; выявление в пределах изображения многоугольного объекта, имеющего визуально четкую границу, включающую множество сторон одного или нескольких пересекающихся прямоугольников; и классификацию выявленного многоугольного объекта как изображения снимка экрана на основе оценки по меньшей мере одного условия проверки гипотезы о снимке экрана, связанного с одним или несколькими атрибутами выявленного многоугольного объекта, где атрибуты выявленного многоугольника включают тип, состав и/или взаимное расположение обнаруженных примитивных объектов. 3 н. и 23 з.п. ф-лы, 9 ил.
Изобретение относится к области техники предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста

 


Наверх