Патенты автора Костюков Михаил Валериевич (RU)

Изобретение относится к области извлечения данных из изображений документов с помощью оптического распознавания символов (OCR). Техническим результатом является экономия вычислительных ресурсов. В способе извлечения данных из полей на изображении документа получают текстовое представление изображения документа. Строится граф для хранения признаков текстовых фрагментов документа и связей между ними. Для вычисления признаков текстовых фрагментов документа и связей между ними осуществляется каскадная классификация. Формируется набор гипотез о принадлежности текстовых фрагментов полям на изображении документа. Выбирается комбинация гипотез. И на основе выбранной комбинации гипотез осуществляется извлечение данных из полей на изображении документа. 14 з.п. ф-лы, 8 ил.

 


Наверх