Патенты автора Атрощенко Михаил Юрьевич (RU)

В настоящем документе представлены системы и способы для получения изображения, по меньшей мере, части документа и определения множества точек деления, делящих изображение на потенциальные сегменты; создания графа линейного деления (ГЛД), содержащего множество вершин с использованием множества точек деления и множества ребер, соединяющих множество вершин; идентификации пути ГЛД, имеющего значение метрики качества выше порогового значения, где путь выбирается из множества путей ГЛД и содержит одно или более ребер, а значение метрики качества выводится с использованием нейронной сети, классифицирующей каждый из множества пикселей изображения; а также создания одного или более блоков изображения, где каждый из одного или более блоков соответствует ребру идентифицированного пути и представляет часть изображения, связанного с типом объекта. 3 н. и 17 з.п. ф-лы, 10 ил.

Изобретение относится к средствам распознавания документов. Техническим результатом является повышение достоверности определения наличия в тексте китайских, японских или корейских символов. В способе определения того, содержит ли текст китайские, японские или корейские символы получают изображение документа. Полученное изображение документа бинаризуется. На бинаризованном изображении документа производится поиск связных компонент. На основе полученных связных компонент выявляется множество фрагментов и определяется ориентация документа. Для каждого фрагмента из множества фрагментов формулируется гипотеза о принадлежности языку. Для гипотезы о принадлежности языку вычисляется оценка вероятности. Из множества фрагментов выбирается подмножество, имеющее наивысшие оценки вероятности. Гипотеза о принадлежности языку проверяется для каждого фрагмента из подмножества фрагментов. Решение о наличии китайских, японских и корейских символов принимается на основе, как минимум, проверки гипотезы о языке фрагментов выбранного подмножества. 3 н. и 17 з.п. ф-лы, 7 ил.

 


Наверх