Патенты автора Носенко Сергей Владимирович (RU)

Изобретение относится к вычислительной технике. Технический результат – обеспечение автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота по меткам конфиденциальности. Способ включает: извлечение метаданных и информативной части документа, преобразование документа из формата хранения в текст, преобразование слов в словоформы, отбрасывание незначимых слов, подсчет весов слов, формирование набора классификационных признаков, при этом на этапе обучения по набору классифицированных документов формируют систему предикатов идентификации метки конфиденциальности документа; на этапе классификации документа на основании признаков принимают решение об относимости документа каждой из меток конфиденциальности, на этапе обучения по набору классифицированных вручную авторизованных пользователей формируют систему предикатов идентификации их метки конфиденциальности, причем на основе меток конфиденциальности поступивших документов и прав доступа авторизованных пользователей системы к этим документам формируют набор классификационных признаков. 1 ил., 1 табл.

Изобретение относится к системам классификации документов. Технический результат – автоматизация классификации конфиденциальных формализованных документов в системе электронного документооборота по областям информационной ответственности и по меткам конфиденциальности. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота заключается в выделении и анализе формальной части поступившего документа (реквизиты), осуществлении преобразования информативной части документа в текст на естественном языке, преобразования слов преобразованного документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и тем самым формировании признаков документа. На этапе обучения по набору классифицированных вручную документов формируют системы предикатов идентификации признаков текста поступившего документа и сохраняют их в базе данных. При классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и определяют соответствующую ему метку конфиденциальности. 1 ил.

Изобретение относится к системам классификации документов. Техническим результатом является сокращение времени работы системы за счет возможности классифицировать документы по форме и выделяемым метаданным и возможности проводить анализ только информативной части документа. В способе автоматической классификации формализованных документов в системе электронного документооборота выделяют и анализируют характеристики одинаковых участков текста (реквизитов) формализованного документа и анализируют выделенные реквизиты. Информативную часть документа преобразуют в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотой их появления, формируя предикаты идентификации признаков текста. По предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста и сохраняют ее в базе данных. Значения весов значимых словоформ подставляют в систему предикатов. В случае необходимости использования априорной информации о зависимостях информационных областей между собой используется алгебра конечных предикатов, позволяющая проводить операции над логическими выражениями, с помощью которых описаны информационные области. 1 ил.

Изобретение относится к абразивному производству

 


Наверх