Патенты автора Пшехотская Екатерина Александровна (RU)

Изобретение относится к средствам автоматизированного анализа текстовых документов. Технический результат заключается в повышении точности определения наличия в документах конфиденциальной информации. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме. Выявляют поля эталонных форм документа в электронном файле анализируемого документа. Выявляют количество полей эталонных форм документа в анализируемом документе. Осуществляют поиск эталонных форм в анализируемом документе. Формируют список найденных эталонных форм документа в анализируемом документе. Проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных. Определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст. Помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте. 2 з.п. ф-лы, 1 ил.
Изобретение относится к области обработки данных, а в частности к способам распознавания данных, в том числе считывания знаков, изображений, образов. Техническим результатом является повышение быстродействия при выявлении в любом документе заранее заданной эталонной круглой печати. Предложен способ автоматизированного поиска заранее заданных эталонных круглых печатей. Способ включает в себя этап, на котором осуществляют сбор коллекции различных заранее заданных изображений как содержащих круглые печати, так и не содержащих круглые печати. Далее согласно способу осуществляют обучение каскадных классификаторов на собранных коллекциях изображений и преобразование в заранее заданный формат всех изображений эталонных печатей, заданных пользователем. А также выявляют области в электронном файле анализируемого документа, где предположительно может располагаться печать, и осуществляют сравнение найденных областей с заранее заданными эталонами.

Изобретение относится к вычислительной технике. Технический результат заключается в защите информации, хранящейся в защищаемой базе данных, от утечек за счет автоматизированного анализа выгрузок из баз данных. Способ автоматизированного анализа выгрузок из баз данных, в котором преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке, задают именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки, сохраняют преобразованные строки эталонных выгрузок и именованные условия на запоминающем устройстве, выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа, составляют матрицу найденных ячеек, применяют заданные именованные условия к матрице найденных ячеек, составляют список условий, которым соответствует матрица найденных ячеек, выносят вердикт о том, присутствует ли в анализируемом документе часть эталонной выгрузки, удовлетворяющей заданным именованным условиям. 1 з.п. ф-лы, 2 ил.
Изобретение относится к автоматизированному определению языка и (или) кодировки текстового документа. Техническим результатом является расширение арсенала технических средств, позволяющее автоматически определять язык и (или) кодировку текста по заранее набранной статистике в любых текстовых документах. В способе автоматизированного определения языка и (или) кодировки текстового документа выделяют байтовые последовательности и подсчитывают статистику встречаемости выделенных байтовых последовательностей. Затем строят на основе статистики профили каждого языка и (или) каждой кодировки, строят поисковый автомат для извлечения искомых байтовых последовательностей из байтового потока проверяемого документа и сохраняют в памяти построенный поисковый автомат и профили языков и (или) кодировок. Находят байтовые последовательности в электронной версии каждого проверяемого документа с помощью поискового автомата и подсчитывают в качестве профиля проверяемого документа статистику встречаемости найденных байтовых последовательностей. Сопоставляют подсчитанный профиль проверяемого документа с профилями языков и (или) кодировок для определения релевантности языка и (или) кодировки данному проверяемому документу. 2 з.п. ф-лы.
Изобретение относится к способу обнаружения текстовых объектов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого способа обнаружения текстовых объектов. Способ обнаружения текстовых объектов заключается в том, что формируют для каждого подлежащего обнаружению текстового объекта список регулярных выражений, каждое из которых описывает данный текстовый объект; создают синтаксический анализатор, предназначенный для осуществления синтаксического анализа регулярных выражений; генерируют на основе синтаксического анализатора индивидуальный конечный автомат для каждого регулярного выражения; объединяют индивидуальные конечные автоматы всех регулярных выражений в по меньшей мере один поисковый автомат, предназначенный для поиска текстовых объектов; запускают поисковые автоматы на тексте подлежащего проверке документа для обнаружения в нем строк, представляющих собой текстовые объекты. 6 з.п. ф-лы.
Изобретение относится к способу классификации документов по категориям

Изобретение относится к автоматизированному анализу текстовых документов

 


Наверх