Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением

Авторы патента:

Полищук Юрий Владимирович (RU)

Полищук Павел Владимирович (RU)

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Владельцы патента RU 2625611:

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Оренбургский государственный университет" (RU)

Изобретение относится к способам организации хранения документов для минимизации их объема при хранении. Техническим результатом является снижение объема хранения электронных документов с квазиструктурированным информационным наполнением. В способе минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением для коллекции однотипных электронных документов с квазиструктурированным информационным наполнением синтезируют квазиструктурированную модель информационного наполнения документов, выполняя разметку контента электронных документов и сохраняя квазиструктурированный контент в виде отдельных файлов. Затем разрабатывают шаблон формы документов обрабатываемого типа и реализуют архивацию шаблона формы и квазиструктурированного контента документов. Причем восстановление электронного документа выполняют путем извлечения шаблона формы и контента документа из архива и применения шаблона формы к полученному контенту документа. 3 ил.

Изобретение относится к способам организации хранения документов для минимизации их объема при хранении и может быть использовано для организации баз или банков документов.

Известен способ сокращения объемов сохраняемых документов в памяти компьютера при помощи программ-архиваторов [Черников Б.В. Офисные информационные технологии: Практикум. - М.: Финансы и статистика, 2007; Ратушняк А., Юкин В., Ватолин Д., Смирнов М. Методы сжатия данных. Устройство архиваторов, сжатие изображения и видео. - М: Диалог-МИФИ, 2003].

К недостаткам данного способа следует отнести то, что обработка документа в этом случае производится после его создания и сохранения на диске, а для восстановления его в первоначальном виде необходимо «распаковать» созданный архив, проведя обратную архивированию операцию. Сокращение объема при таком способе преобразования документа (архивировании) в большей степени относится именно к его содержательной (текстовой) части, в то время как объем графических элементов сокращается (сжимается) незначительно.

Известен способ преобразования слабоформулизуемых документов, предусматривающие лексикологический синтез документов для минимизации, который заключается в осуществлении лексикологического синтеза документа, формировании документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксации индексной последовательности, сжатии индексной последовательности, формировании информационного пакета документа, хранении его в компьютерной памяти, последующем восстановлении документа, при котором осуществляют чтение информационного пакета, восстановлении исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, затем восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении [Патент РФ №2413985, МПК G06F 17/2,1 опубл. 10.03.2011 г., автор Черников Б.В. «Способ преобразования слабоформулизуемых документов для минимизации их объема при хранении»].

К недостаткам данного способа следует отнести отсутствие математической модели информационного наполнения обрабатываемых документов, отсутствие возможности описания лексикологическим деревом фактографического контента (неунифицированной информации) для документов.

Данное техническое решение выбрано автором в качестве прототипа.

Техническим результатом предлагаемого способа является сокращение объема хранения электронных документов за счет однократного хранения формы документа данного типа и содержание (контента) документов коллекции, в результате хранится большой объем электронных документов.

Технический результат достигается тем, что в предлагаемом способе минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением для коллекции синтезируют каждый документ коллекции квазиструктурированной модели информационного наполнения документов, выполняя разметку контента электронных документов и сохраняя квазиструктурированный контент в виде отдельных файлов, а разработанный шаблон сжимают вместе с фактографическими данными всех документов в архив шаблона формы и квазиструктурированного контента документов, причем восстановление электронного документа выполняют извлечением из архива фактографических данных шаблона формы и заданного контента документа и применением шаблона формы к вновь полученному контенту документа.

Сущность изобретения поясняется чертежами

На фиг. 1 изображена блок-схема последовательностей операций, иллюстрирующая сущность способа минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением.

На фиг. 2 изображена блок-схема последовательностей операций, иллюстрирующая процесс восстановления документа.

На фиг. 3 - пример применения квазиструктурированной модели информационного наполнения к фрагменту документа документации газоконденсатного месторождения.

Предлагаемый способ реализуется следующим образом.

Выбирается коллекция однотипных электронных документов с квазиструктурированным информационным наполнением.

По известному способу выбранного типа документов синтезируют квазиструктурированную модель информационного наполнения документа.

Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов, заключающийся в построении первоначальной модели, определении параметров эффекта и целевой функции для каждого документа первоначальной модели, вычислении среднего значения целевой функции первоначальной модели, выполнении анализа контента структурных единиц полученной модели с внесением изменений в структуру первоначальной модели для уменьшения значений параметров эффекта за исключением параметра валидации, определении параметров эффекта и целевой функции для каждого документа скорректированной модели, вычислении среднего значения целевой функции скорректированной модели, сравнении средних значений целевой функции для первоначальной и скорректированной моделей в рамках хотя бы одной итерации, причем в качестве параметров эффекта выбирают валидацию модели, степень детализации модели, равномерность распределения структурных единиц модели по документу, насыщенность структурных единиц модели в документе, гибкость модели, а в качестве целевой функции выбирают свертку параметров эффекта, причем валидацию модели определяют из соответствия модели стандарту на содержание и она равна единице, степень детализации модели определяют из отношения количества символов контента структурных единиц модели к общему количеству структурных единиц модели и она минимизирована, равномерность распределения структурных единиц модели по документу определяют из отношения количества символов фрагмента к количеству структурных единиц модели данного фрагмента и она минимизирована, насыщенность структурных единиц модели в документе определяют из отношения количества символов документа к количеству символов контента структурных единиц модели и она минимизирована, гибкость модели определяют из отношения общего количества структурных единиц модели без учета необязательных и повторяющихся структурных единиц модели к общему количеству структурных единиц модели и она стремится к нулю, а целевую функцию определяют из отношения суммы значений всех вышеперечисленных параметров эффекта к значению параметра валидации модели [Полищук Ю.В. Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов. Патент РФ №2517428]. Эта модель информационного наполнения может быть записана следующим образом:

где root - корневой объект, root ∈ sObj; sObj - конечное множество объектов, каждый из которых содержит фрагмент информационного наполнения документа (текст, рисунок и т.д.) или выполняет роль контейнера для одного или нескольких объектов. Для объектов-контейнеров доступны следующие метасвойства: smet_c - определяет объект в качестве контейнера; mixed - разрешает использование объектов-потомков в произвольном порядке; kol_о - количество объектов модели; LObj - отображение, определенное на множестве sObj, такое что , где obj_i - дочерний объект, obj_i ∈ sObj; i=1, …, n, n - число дочерних объектов; minOccurs - функция, определяющая минимально возможное число раз использования объекта в модели; maxOccurs - функция, определяющая максимально возможное число раз использования объекта в модели; sMet - конечное множество метасвойств ограничений на содержимое объекта; Obj_smet - отображение, определенное на множестве sObj, такое что , где smet_j - метасвойство ограничения на содержимое объекта, smet_j ∈ sMet, j=1, …, kol_m, kol_m - количество доступных метасвойств модели.

Документ, состоит из пяти объектов. Объект А - выполняет роль контейнера для объектов В и С, объект В - выполняет роль контейнера для объектов D и E. Объекты A, B, D - обязательно должны быть использованы при разработке документа, объект С - является необязательным к использованию, объект Е в рассматриваемом примере должен быть использован от трех до пяти раз. Объекту-контейнеру А соответствует метасвойство ограничения smet_c, а для объекта-контейнера В определено дополнительно метасвойство mixed. Объект С представлен числовым наполнением, т.е. ему соответствует метасвойство ограничения smet₂. Объекты D, Е - имеют символьное информационное наполнение, которому соответствует метасвойство ограничения smet₁.

Модель документа имеет вид:

Затем применяем полученную модель ко всем документам коллекции (на фиг. 3 представлен фрагмент разметки контента электронного документа с модели) и сохраняем квазиструктурированный контент обрабатываемых документов.

Выполняем разработку шаблона формы в виде XSLT-шаблона для обрабатываемого типа документов, который сохраняем в виде отдельного файла.

Производим архивацию шаблона формы и квазиструктурированный контент всех документов. Данную операцию реализуем, например, с помощью архиватора 7-ZIP. Архив сохраняем в памяти компьютера.

Для восстановления документа необходимо выполнить следующие операции (фиг. 2).

Выбрать требуемый для восстановления файл.

Извлечь из архива и сохранить в памяти компьютера контент выбранного документа и шаблон формы.

Применить шаблон формы к контенту документа и сохранить восстановленный документ в памяти компьютера.

Анализ результатов экспериментальной проверки предлагаемого способа минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением показывает существенное сокращение объема. На примере документации газоконденсатного месторождения преимущество в сравнении с традиционным архивированием составило в 20 и более раз.

Предлагаемое техническое решение позволяет минимизировать объем хранения электронных документов с квазиструктурированным информационным наполнением до 20 раз, счет однократного хранения формы документа данного типа и содержания (контента) документов коллекции.

Способ преобразования документов для минимизации их объема при хранении электронных документов с квазиструктурированным информационным наполнением, состоящий в выборе коллекции однотипных электронных документов с квазиструктурированным информационным наполнением, синтезе квазиструктурированной модели информационного наполнения для обрабатываемого типа документов и извлечении из документов квазиструктурированного контента с помощью синтезированной модели, и разработке шаблона формы электронного документа обрабатываемого типа, сохранении шаблона формы и контентов документов коллекции в виде архива, затем в восстановлении в памяти компьютера электронных документов путем извлечения из архива и применения шаблона формы к контентам документов, отличающийся тем, что синтезируют каждый документ коллекции квазиструктурированной модели информационного наполнения документов, выполняя разметку контента электронных документов и сохраняя квазиструктурированный контент в виде отдельных файлов, а разработанный шаблон сжимают вместе с фактографическими данными всех документов в архив шаблона формы и квазиструктурированного контента документов, причем восстановление электронного документа выполняют извлечением из архива фактографических данных шаблона формы и заданного контента документа и применением шаблона формы к вновь полученному контенту документа.

Изобретение относится к устройству обработки изображений для обработки данных светового поля. Техническим результатом является повышение эффективности при передаче данных изображения.

Электронное обнаружение в хранилищах // 2624576

Изобретение относится к вычислительной технике, в частности к способу обнаружения электронных данных. Технический результат заключается в обеспечении обнаружения электронных данных в различных источниках данных.

Осуществимый компьютером способ переработки машиночитаемой информации // 2623901

Изобретение относится к переработке машиночитаемой информации. Технический результат - быстрая переработка машиночитаемой информации с возможностью одновременной доступности к большому числу электронных документов; быстрое отнесение электронных документов к тематическим подмножествам электронных документов; одновременная визуализация на экране промежуточных и/или окончательных результатов переработки машиночитаемой информации, включающих большое количество электронных документов; быстрое и эффективное оперирование электронными документами и их тематическими подмножествами; и быстрый и эффективный подбор поисковых предписаний.

Способ поиска входной строки в дереве поиска с индексацией узлов дерева поиска // 2623882

Изобретение относится к способам поиска входной строки в дереве поиска, содержащем маски. Техническим результатом является уменьшение времени поиска пути по дереву поиска.

Способ применения политик безопасности для обеспечения безопасности вычислительного устройства // 2623808

Изобретение относится к способу обеспечения безопасности вычислительного устройства. Технический результат заключается в обеспечении безопасности вычислительного устройства, которое достигается путем применения политик безопасности на указанном устройстве в зависимости от текущего уровня знаний пользователя.

Способы и системы для реализации приближенного сравнения строк в базе данных // 2623802

Изобретение относится к способам и системам для приближенного сравнения строк в базе данных с добавляемой записью в базу данных, находящуюся в сети обслуживания банковских карт.

Система и способ задания уровня безопасности подключения // 2622882

Изобретение относится к безопасному подключению мобильных устройств к компьютерам. Технический результат - защита данных пользователя при подключении мобильного устройства к компьютеру.

Способ префиксной дедупликации цифровых данных // 2622875

Изобретение относится к области сжатия данных и может использоваться при хранении больших объемов данных, содержащих избыточность. Технический результат заключается в устранении избыточности в обработанных цифровых данных.

Способ поиска пути по дереву // 2622629

Изобретение относится к компьютерной безопасности. Технический результат заключается в обеспечении блокировки приложением безопасности доступа к запрещенным путям, содержащимся в дереве поиска.

Система и способ управления запасами грудного молока // 2622375

Группа изобретений относится к медицине. Группа изобретений включает в себя способ сбора и анализа данных о запасах грудного молока, энергонезависимые машиночитаемые носители, контейнер для сбора сцеженного грудного молока у матери, способ управления прилегания соска матери внутри грудной чашки, систему для сбора сцеженного грудного молока у матери.

Предоставление сетевых адресов сетевым абонентам // 2625934

Изобретение относится к технологиям сетевой связи. Технический результат заключается в повышении скорости передачи данных в сети. Способ предоставления сетевых адресов для сетевых абонентов сегментированной сети (1) с несколькими подсетями (111), которые, соответственно, через маршрутизатор (112) подсети подключены к соединяющей их сборной сети (101), причем маршрутизаторами (112) подсети посредством обмена сообщениями маршрутизаторов, распределяемыми через сборную сеть (101), децентрализованно определяется общий адресный диапазон, и внутри адресного диапазона устанавливаются сетевые адреса для сетевых абонентов. 3 н. и 11 з.п. ф-лы, 2 ил.

Способ и устройство обработки объекта данных // 2626334

Изобретение относится области информационных технологий и, в частности, к обработке объекта данных. Техническим результатом является повышение эффективности хранения обработанных данных. В способе обработки объекта данных делят объект данных на блоки. Вычисляют выборочный коэффициент сжатия каждого блока и агрегируют в один сегмент данных соседние последовательные блоки с одинаковой характеристикой выборочного коэффициента сжатия. Получают выборочный коэффициент сжатия каждого сегмента данных и выбирают, в соответствии с диапазоном длин, к которому принадлежит длина каждого сегмента данных, и диапазоном коэффициентов сжатия, к которому принадлежит выборочный коэффициент сжатия каждого сегмента данных, предполагаемую длину для деления сегмента данных на фрагменты данных. При этом выборочный коэффициент сжатия каждого сегмента данных однозначно принадлежит одному диапазону коэффициентов сжатия, а длина каждого сегмента данных однозначно принадлежит одному диапазону длин обработанных данных. 2 н. и 18 з.п. ф-лы, 2 табл., 6 ил.

Способ и сервер для создания предложений по завершению поисковых запросов // 2626663

Изобретение относится к способу и серверу для выбора предложения по завершению поискового запроса. Технический результат заключается в обеспечении пользователя допустимыми предложениями по завершению поискового запроса за счет выполнения анализа запрещенных слов и связанных с ними маркеров запрещения и разрешения. В способе выполняют получение и анализ части поискового запроса для определения первого компонента запроса, создание предлагаемого второго компонента запроса, относящегося к первому компоненту запроса, предложение по завершению поискового запроса содержит первый компонент запроса и предлагаемый второй компонент запроса, получение доступа к списку потенциально запрещенных слов, если первый компонент запроса совпадает с одним из потенциально запрещенных слов, определение того, связано ли потенциально запрещенное слово с маркером запрещения или с маркером разрешения для получения доступа к списку маркеров запрещения или к списку маркеров разрешения для определения того, совпадает ли предлагаемый второй компонент запроса с любым из маркеров запрещения или маркеров разрешения и создание предложения по завершению поискового запроса по результатам этого определения. 2 н. и 24 з.п. ф-лы, 5 ил.

Способ и устройство для автоматического генерирования рекомендаций // 2627717

Изобретение относится к средствам создания списков рекомендаций элементов контента пользователю. Технический результат заключается в повышении точности выдачи рекомендаций. Генерируют набор данных первоначального профиля пользователя для этого конкретного пользователя исходя из извлеченных идентификационных данных. Генерируют с использованием извлеченных идентификационных данных из набора данных первоначального профиля пользователя по меньшей мере два запроса, семантически отличающиеся друг от друга, которые должны быть направлены в по меньшей мере один репозиторий контента. Выдают сгенерированные запросы в по меньшей мере один репозиторий контента. Принимают из по меньшей мере одного репозитория контента в ответ на запрос относящиеся к контенту ответные данные, содержащие соответствующие списки совпадений, имеющие по меньшей мере один соответствующий идентификатор размещения контента, указывающий место хранения соответствующего элемента контента. Генерируют из разных извлеченных списков совпадения единый список рекомендаций посредством перемежения друг с другом идентификаторов размещения контента, содержащихся в разных списках совпадений из упомянутых списков совпадений. 4 н. и 11 з.п. ф-лы, 2 ил.

Способ и устройство для идентификации географических местоположений // 2628147

Изобретение относится к генерированию идентификаторов для географических местоположений, которые оптимизированы для использования человеком. Технический результат заключается в обеспечении назначения идентификаторов на географические местоположения в пределах цифровых данных карты. Технический результат достигается за счет выбора области в пределах данных карты, деления области на первое множество ячеек, причем каждая является уникально адресуемой посредством идентификатора первой длины, выбора части области, деления этой части на второе множество ячеек, причем каждая является уникально адресуемой посредством идентификатора второй длины, причем вторая длина является более короткой, чем первая длина, выбора дополнительной части области, деления упомянутой дополнительной части на третье множество ячеек, причем каждая является уникально адресуемой посредством идентификатора третьей длины, при этом третья длина является более короткой, чем первая длина и вторая длина, и при этом географическое местоположение в пределах как упомянутой части, так и дополнительной части уникально идентифицировано посредством каждого из идентификаторов первой длины, второй длины и третьей длины. 4 н. и 10 з.п. ф-лы, 9 ил., 1 табл.

Способ и устройство для кластеризации // 2628167

Изобретение относится к способам кластеризации данных, в частности к кластеризации изображений. Техническим результатом является повышение точности результатов кластеризации. В способе кластеризации согласно межклассовым расстояниям рангового порядка выполняют слияние классов, удовлетворяющих определенному условию, в результате чего сокращают количество классов. В соответствии с межобъектными расстояниями внутри класса вычисляют степень внутриклассового сходства. Степень внутриклассового сходства представляет собой среднее расстояние или нормализованное среднее расстояние по всем межобъектным расстояниям внутри класса. Объекты внутри класса, расстояние между которыми меньше степени внутриклассового сходства, выделяют в новый класс до тех пор, пока все классы не будут разделены. Выполняют итеративное слияние и разделение классов до тех пор, пока никакой из классов не сможет быть разделен. Для каждого полученного класса удаляют объекты, для которых межобъектное расстояние до любого другого объекта внутри одного и того же класса не меньше степени внутриклассового сходства, из числа объектов внутри того же класса, для которых межобъектное расстояние до любого другого объекта внутри того же класса меньше степени внутриклассового сходства. 3 н. и 8 з.п. ф-лы, 9 ил., 1 табл.

Система и способ контроля доступа к контенту, распространяемому в сети // 2628170

Изобретение относится к области распространения контента в сети. Технический результат – защищенное распространение файла одному или нескольким пользовательским устройствам. Способ управления использованием файла в пользовательском устройстве включает: передачу системе пользовательским устройством информации для аутентификации, которая содержит идентификатор пользовательского устройства и по меньшей мере один идентификатор пользователя устройства, позволяющей таким образом аутентификацию указанного пользовательского устройства, загрузку пользовательским устройством файла из системы после успешной аутентификации системой, посредством чего указанный загруженный файл связан с указанным клиентским приложением с возможностью защищенного доступа, обеспечение посредством указанного клиентского приложения на пользовательском устройстве по меньшей мере одному идентифицированному пользователю, связанному с указанным пользовательским устройством, возможности защищенного доступа к указанному файлу в течение времени, когда указанное пользовательское устройство отсоединено от указанной системы, посредством чего по меньшей мере один указанный идентифицированный пользователь является автономным пользователем, а защищенный доступ включает обеспечение клиентскому приложению возможности доступа к указанному файлу, когда указанный автономный пользователь аутентифицирован с указанным клиентским приложением, предотвращение пользовательским устройством изменения файла, печати файла и открытия файла вне клиентского приложения, сохранение пользовательским устройством комментариев к файлу в локальной области памяти отдельно от файла, передачу системе пользовательским устройством по меньшей мере части комментариев, и удаление пользовательским устройством файла из пользовательского устройства по команде системы. 4 н. и 16 з.п. ф-лы, 12 ил.

Устройство для семантической классификации и поиска в архивах оцифрованных киноматериалов // 2628192

Изобретение относится к семантической классификации оцифрованных киноматериалов и информационного поиска в архивах оцифрованных киноматериалов. Техническими результатами являются повышение точности сегментации фильмов на сцены, повышение точности классификации сцен по заранее заданному перечню классов, повышение быстродействия процесса извлечения семантических признаков из кадров кинофильма, сокращение дополнительных затрат на программирование при увеличении размерности вектора признаков, сокращение объема данных для хранения индекса для выполнения информационного поиска кинофрагментов по текстовым запросам, запросам в структурированной форме и запросам по образцу, сокращение времени выполнения индексации и повышение точности и чувствительности информационного поиска. Устройство семантической классификации и поиска в архивах оцифрованных киноматериалов содержит последовательно соединенные средство получения оцифрованных материалов, средство извлечения выборочных кадров из оцифрованных киноматериалов, средство извлечения векторов признаков, средство сегментации и классификации, средство хранения индекса, средство для выполнения информационного поиска, серверное устройство и клиентское устройство. 4 з.п. ф-лы, 3 ил.

Обеспечение руководства тематическим поиском // 2628200

Группа изобретений относится к средствам для предоставления предложений тематического поиска. Технический результат – предоставление точных результатов поиска для пользователя. Для этого предложения тематического поиска обеспечивают пользователю возможность приема результатов поиска, относящихся к обозначенной теме или предмету. Настоящее изобретение может генерировать многочисленные темы на основе поискового ввода, предоставленного пользователем. Поисковым вводом является поисковый префикс, который включает в себя одно или более слов, введенных в поле поискового запроса, до того как завершенный поисковый запрос подается в поисковую машину. Поисковый интерфейс затем представляет пользователю темы, полученные исходя из поискового префикса, до того как пользователь подаст запрос. При этом темы извлекаются посредством выполнения анализа естественного языка метаданных результатов поиска, а содержимое результатов поиска не анализируется. 3 н. и 15 з.п. ф-лы, 7 ил.

Способ и устройство для пометки терминала // 2628253

Изобретение относится к технологиям для пометки терминала. Техническим результатом является обеспечение возможности сервером формировать идентификационную информацию терминала. Предложен способ для пометки терминала, выполняемый сервером. Способ содержит этап, на котором принимают запрос доступа к веб-странице для осуществления доступа к целевой веб-странице, отправленный терминалом. Далее, согласно способу, отправляют предварительно заданную информацию рисования терминалу, а также отдают команду терминалу рисовать соответствующий объект согласно предварительно заданной информации рисования и конфигурационной информации терминала. Далее получают от терминала информацию об объекте, характеризующую объект, нарисованный терминалом, и формируют идентификационную информацию для идентификации терминала согласно информации об объекте. 3 н. и 15 з.п. ф-лы, 5 ил.