Изобретение относится к осуществляемым на компьютере способам и системам обработки документов в целом и, в частности, к способу и устройству для определения типа цифрового документа. Техническим результатом является уменьшение требуемых вычислительных ресурсов для определения типа цифровых документов. В способе определения типа цифрового документа получают обрабатываемый цифровой документ. С помощью процессора электронного устройства запускают множество классификаторов на базе алгоритма машинного обучения (MLA). При этом каждый классификатор из множества классификаторов MLA обучен для определения конкретного типа документа. Множество классификаторов MLA упорядочены в иерархическом порядке выполнения множества классификаторов MLA. Определяют в иерархическом порядке выполнения, относится ли тип документа к одному из типов документов, уверенно определяемых каждым из классификаторов MLA. 4 н. и 53 з.п. ф-лы, 8 ил.
Изобретение раскрывает системы, машиночитаемые носители и методы создания гибких структурных описаний. Технический результат - автоматическое создание структурного описания, используемого для извлечения данных из изображения объекта. Для создания гибких структурных описаний используется изображение документа конкретного типа, содержащего таблицу. Отмечается позиция, описывающая одну запись в таблице. На основе отмеченной позиции производится поиск элементов заголовка внутри документа, определяются поля данных и опорные элементы. Для данного типа документов создается гибкое структурное описание документа, включающее набор элементов поиска для каждого из полей данных на изображении документа, а также элементы заголовка. Гибкое структурное описание накладывается на изображение. Данные извлекаются из изображения в соответствии с результатом наложения гибкого структурного описания на изображение документа. 3 н. и 15 з.п. ф-лы, 4 ил.