Способ автоматизированного анализа эталонных форм

Изобретение относится к средствам автоматизированного анализа текстовых документов. Технический результат заключается в повышении точности определения наличия в документах конфиденциальной информации. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме. Выявляют поля эталонных форм документа в электронном файле анализируемого документа. Выявляют количество полей эталонных форм документа в анализируемом документе. Осуществляют поиск эталонных форм в анализируемом документе. Формируют список найденных эталонных форм документа в анализируемом документе. Проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных. Определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст. Помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте. 2 з.п. ф-лы, 1 ил.

 

Область техники, к которой относится изобретение

Настоящее изобретение относится к автоматизированному анализу эталонных форм и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них частей, принадлежащих к заданной эталонной форме. К эталонным формам можно отнести анкеты, платежные формы, формы заявлений.

Уровень техники

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в патенте РФ №2282889 (опубл. 27.08.2006 г.), который можно считать ближайшим аналогом настоящего изобретения, раскрыт способ обработки информации для обнаружения полей формы в информационных потоках, где предварительно формируют базу эталонных полей форм, подлежащих выявлению в информационном потоке, принимают информационный поток, последовательно выделяют и запоминают фрагменты принимаемого информационного потока, из которых выделяют поля форм, сравнивают их с эталонными полями форм из базы эталонных полей форм и по результатам сравнения фиксируют наличие и отсутствие в каждом фрагменте информационного потока полей форм, подлежащих выявлению. Этот способ достаточно трудоемок, требует длительного времени на обработку и пригоден лишь в ограниченной области.

Раскрытие изобретения

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в каком-либо документе информацию из заданной эталонной формы и который бы не имел недостатков относительно известных решений. Также, способ позволяет детектировать только заполненные эталонные формы, что должно снижать количество ложноположительных срабатываний.

Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа эталонных форм, заключающийся в том, что: преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме; сохраняют преобразованные поля эталонных форм на запоминающем устройстве; выявляют поля эталонных форм в электронном файле анализируемого документа; выявляют количество полей эталонных форм в анализируемом документе; формируют список найденных эталонных форм в анализируемом документе; проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе для исключения из списка; определяют позицию полей эталонных форм из отобранного списка в анализируемом документе; выявляют текст в анализируемом документе, находящийся между найденными полями; определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст; помещают имя текущей формы в список эталонных форм, найденных в анализируемом тексте.

Особенность способа по настоящему изобретению состоит в том, что для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм.

Еще одной особенностью по настоящему изобретению является то, что если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

Еще одной особенностью по настоящему изобретению является то, что исключают «стоп-слова» в анализируемом документе.

Краткое описание чертежей

На Фиг.1 представлен пример эталонной формы, к которой применяется способ по настоящему изобретению.

Подробное описание изобретения

Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

Способ автоматизированного анализа эталонных форм по настоящему изобретению предназначен для осуществления защиты от утечек информации, хранящейся в заполненных формах, например анкетах сотрудников, содержащих личную информацию. Анализ производится в несколько этапов. Цель каждого этапа сузить список эталонных форм, которыми может являться анализируемый текст.

На первом этапе необходимо подготовить эталонные данные. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме.

К эталонным данным в данном изобретении можно отнести следующую информацию:

1. Непосредственно форму с незаполненными полями.

2. Идентификатор формы (название).

3. Параметры чувствительности алгоритма.

Непосредственно эталонные данные, относящиеся к эталонной форме, готовят следующим образом:

1) каждое поле формы разбивается на слова либо числа (разделителем считаются все символы кроме букв и цифр);

2) из получившегося списка удаляются «стоп-слова»;

3) для каждого выделенного слова снимается HASH;

4) для полученных HASH значений записывается местоположение полей, в которых они встречаются (имя эталонной формы, номер поля).

«Стоп-слова» - это слова, не несущие какой-либо самостоятельной смысловой нагрузки (см. http://ru.wikipedia.org/wiki/стоп-слова).

HASH представляет собой число фиксированной длины, которое ставится в соответствие данным произвольной длины таким образом, чтобы вероятность появления различных данных с одинаковым хешем стремилась к нулю, а восстановить данные по их хешу было как можно труднее (см. http://ru.wiktionary.org/wiki/хэш).

Преобразованные поля эталонной формы, а также параметры чувствительности сохраняют на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной формы.

Далее перед началом автоматизированного анализа эталонных форм цифровые отпечатки эталонных форм загружаются в память. Согласно требованиям безопасности, тексты эталонных форм не сохраняются, что позволяет предотвратить их несанкционированное чтение.

Следующий этап настоящего изобретения заключается в том, что выявляют поля эталонных форм в электронном файле анализируемого документа, таким образом происходит анализ того, содержит ли электронный документ часть эталонной формы или нет. Выявляют степень соответствия между эталонными формами и анализируемым документом. Таким образом, выявляют количество полей эталонных форм в анализируемом документе.

Для этого составляют список найденных полей эталонных форм. Основной целью данного этапа является создание списка эталонных форм, данные из которых присутствуют в анализируемом документе. Один из вариантов данного этапа выявления количества полей эталонных форм в анализируемом документе происходит следующим образом.

Этап создания данного списка состоит из нескольких шагов:

1) входной текст разбивается на слова и числа (разделителем считаются все символы кроме букв и цифр), формируется вектор;

2) из полученного вектора удаляются «стоп-слова» и дубликаты, таким образом, получается вектор, состоящий из уникальных слов и чисел, принадлежащих анализируемому документу;

3) от каждого элемента в векторе считается HASH сумма;

4) каждый HASH из полученного вектора ищется во внутреннем хранилище эталонных форм;

5) каждое поле, где найден текущий HASH, помечается;

6) как только становится ясно, что все HASH значения в каком-либо поле формы присутствуют в анализируемом тексте, то соответствующий счетчик для текущей эталонной выгрузки увеличивается;

7) после того как все HASH входного вектора обработаны, формируется список из эталонных форм, счетчики полей которых больше 0.

В результате формируют список эталонных форм, поля которых присутствуют в анализируемом тексте. Далее весь анализ производится только с этими эталонами. Если список эталонов не пустой, то для последующих этапов анализа анализируемый текст разбивается на слова, и от каждого слова снимается HASH, важно не потерять порядок слов. Дальнейшим этапом способа проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе, и если порядок полей не совпадает с конкретной эталонной формой, то найденная эталонная форма исключается из списка и не участвует в дальнейшем анализе. Определяют позицию полей эталонной формы в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Если между любыми соседними полями найден текст, то определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте.

Помещают имя текущей формы в список форм, найденных в анализируемом тексте.

В частном варианте осуществления настоящего изобретения для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм. И если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

Еще в одном из частных случаев осуществления настоящего изобретения исключают «стоп-слова» эталонных формах и в анализируемом документе. Таким образом, способ автоматизированного анализа эталонных форм по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе присутствие данных из эталонных форм, а также определять, заполнены ли данные формы, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

1. Способ автоматизированного анализа эталонных форм документа, заключающийся в том, что:
- преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме;
- сохраняют преобразованные поля эталонных форм документа на запоминающем устройстве;
- выявляют поля эталонных форм документа в электронном файле анализируемого документа;
- выявляют количество полей эталонных форм документа в анализируемом документе;
- осуществляют поиск эталонных форм в анализируемом документе;
- формируют список найденных эталонных форм документа в анализируемом документе;
- проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных;
- определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе;
- выявляют текст в анализируемом документе, находящийся между найденными полями;
- определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст;
- помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте.

2. Способ по п. 1, в котором:
- для каждой эталонной формы документа задают условие, определяющее необходимость эталонной формы документа быть заполненной для ее детектирования на этапе формирования эталонных форм документа;
- если на этапе проверки порядка следования полей для текущей эталонной формы документа достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы документа помещают в список эталонных форм документа, выявленных в анализируемом тексте.

3. Способ по п. 1, в котором исключают «стоп-слова» в эталонных формах и в анализируемом документе.



 

Похожие патенты:

Изобретение относится к области технологий обработки данных. Технический результат заключается в повышении эффективности сканирования подозрительных файлов.

Изобретение относится к системам и способам управления доступом к накопителю в сети. Технический результат заключается в повышении безопасности корпоративных данных путем управления доступом к накопителю с использованием системы и способа применения политик безопасности к накопителю в сети, которые определяют политики безопасности, основываясь на истории использования накопителя.

Изобретение относится к способам предоставления доступа к ресурсам виртуализированной среды. Технический результат заключается в повышении защищенности виртуализированных сред от несанкционированного доступа за счет обеспечения доверенной загрузки виртуальных машин в виртуализированных средах.

Изобретение относится к информационной безопасности. Технический результат заключается в повышении защищенности активного сетевого оборудования.

Изобретение относится к контролю информационной безопасности. Технический результат - обеспечение безопасности сети транспортного средства.

Изобретение относится к средствам обработки запроса от потенциально несанкционированного пользователя на доступ к ресурсу. Технический результат заключается в уменьшении вероятности взлома учетных записей пользователя.

Изобретение относится к области аутентификации пользователей. Технический результат - прощение процесса аутентификации пользователя в периферийном устройстве.

Изобретение относится к информационной безопасности. Технический результат заключается в сокращении количества приложений, статус опасности которых неизвестен, путем определения статуса таких приложений.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении безопасности компьютера.

Изобретение относится к информационной безопасности. Технический результат заключается в обеспечении определения категории доверия приложения, осуществившего перекрытие защищенного приложения.

Изобретение относится к методам представления текста. Технический результат состоит в получении возможности интеграции разных приложений для обработки текста на основе унификации представления текстовой информации, включая также информацию о структуре, формате и оформлении документа (шрифты, форматирование и т.п.).

Изобретение относится к способу осуществления доступа к документу на клиентском компьютере. Технический результат заключается в обеспечении обработки документа в реальном масштабе времени.

Изобретение относится к системам и методам создания корпусов текстов для различных исследовательских и других целей. Техническим результатом является повышение точности отделения текстов пользователей от остального контента веб-страниц при автоматическом построении корпуса текстов.

Группа изобретений относится к средствам для совместной работы над документами. Технический результат заключается в обеспечении сохранения метаданных во время операции отмены на клиентском компьютере при совместной работе над документами.

Изобретение относится к вычислительной технике. Технический результат заключается в ускорении процесса производства программного обеспечения для микроконтроллеров за счет повышения качества и скорости предоставления разработчику информационной поддержки.

Изобретение относится к системам классификации документов. Техническим результатом является сокращение времени работы системы за счет возможности классифицировать документы по форме и выделяемым метаданным и возможности проводить анализ только информативной части документа.

Изобретение относится к области совместной работы с документами на сетевой основе. Техническим результатом является обеспечение слияния метаданных документа на клиентском компьютере.

Изобретение относится к предоставлению информации на основании запроса пользователя. Технический результат - эффективность выполнения запросов поисковыми машинами.

Изобретение относится к средствам поиска информации с помощью поискового индекса. Технический результат заключается в уменьшении времени поискового процесса и в повышении точности результатов поиска.

Изобретение относится к методам веб-каналов на языке XML (Расширяемом Языке Разметки) для веб-доступа удаленных ресурсов. Техническим результатом является оптимизация инфраструктуры систем веб-доступа и обеспечения способности запуска удаленных программ.

Изобретение относится к оптическому распознаванию символов. Техническим результатом является оптимизация оптического распознавания символов за счет использования леса решений. Предложенная система включает в себя команды в машинном коде при их исполнении процессором, управляющие системой оптического распознавания символов для обработки содержащего текст отсканированного изображения документа путем выполнения идентификации изображений символов в содержащем текст отсканированном изображении документа. Причем идентификация выполняется для каждой страницы документа и для каждого изображения символа на странице. Выполняют идентификацию набора подходящих структур данных эталона для изображения символа с использованием леса решений. Используют подходящие структуры данных эталона для определения набора подходящих графем и используют идентифицированный набор подходящих графем для выбора кода символа, который соответствует изображению символа. Подготавливают обработанный документ, содержащий коды символов, которые соответствуют изображениям символов из отсканированного изображения документа, и сохраняют обработанный документ в одном или более запоминающих устройств и модулей памяти. 3 н. и 17 з.п. ф-лы, 66 ил.
Наверх