Способ преобразования слабоформализуемых документов для минимизации их объема при хранении

Авторы патента:

Черников Борис Васильевич (RU)

G06F17/21 - обработка текста (G06F 17/27,G06F 17/28 имеют преимущество; системы для наборных машин B41B 27/00)

G06F12 - Выборка, адресация или распределение данных в системах или архитектурах памяти (хранение информации как таковое G11)

Владельцы патента RU 2413985:

Черников Борис Васильевич (RU)

Изобретение относится к способам преобразования документов для минимизации их объема при хранении. Для решения задачи сокращения объемов слабоформализуемых документов при хранении в памяти компьютера в способе преобразования слабоформализуемых документов осуществляют лексикологический синтез документа, формирование документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксацию индексной последовательности, сжатие индексной последовательности, формирование информационного пакета документа, хранение его в компьютерной памяти, последующее восстановление документа, при котором осуществляют чтение информационного пакета, восстановление исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, затем восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа, с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении. 5 ил.

Изобретение относится к способам преобразования документов для минимизации их объема при хранении.

Большинство документов, наиболее распространенных в настоящее время в системах управления различными видами деятельности, относятся к слабоформализуемым. К ним, в частности, относятся полнотекстовые документы, содержание которых существенным образом связано с произвольной, меняющейся от конкретной ситуации, структурой, т.е. фактически к данной категории документов могут быть отнесены практически любые документы, создаваемые в процессе деловой деятельности организаций.

При использовании персональных компьютеров как средств создания документов возникают проблемы, связанные с хранением информации, поскольку при постоянно возрастающем количестве документов требуются большие объемы памяти. Увеличение объемов накопленных данных приводит к усложнению управления ими и необходимости расширения возможностей систем хранения, что сопряжено с дополнительными финансовыми затратами.

Большинство деловых документов создаются с использованием бланков, содержащих графические компоненты как неотъемлемую часть документа. Наличие в документе графических компонентов (например, изображение на бланке логотипа организации с использованием цветовых элементов) может приводить к увеличению общего объема документа более чем на 100 Мб.

Документ представляет собой сложную информационную совокупность, характеризующуюся множеством различных параметров (состав реквизитов, их содержание, формат, тип носителя, правила расположения информации по полю документа и т.д.), каждый из которых может быть принят за объект унификации. В каждом из документов различают форму и содержание.

При создании текстового документа его форма может задаваться при помощи шаблона, заблаговременно содержащего необходимые компоненты, в том числе и графические, однако содержательная часть, как правило, формируется путем прямого ввода информации с клавиатуры.

Известен способ прямого сохранения документов в текстовом процессоре Microsoft Word [Черников Б.В. Офисные информационные технологии: Практикум. - М.: Финансы и статистика, 2007], при котором сохранение документа осуществляется на выбранном носителе информации непосредственно из программной среды, в которой производится создание документа. К недостаткам данного способа следует отнести необходимость полнотекстового сохранения документа со всеми его неотъемлемыми компонентами и атрибутами, включая служебную информацию, присущую документам, создаваемым в Microsoft Word. Эта информация имеет достаточно большой объем («пустой» документ, содержащий лишь такую служебную информацию Microsoft Word, при сохранении на диске занимает более 35 кб).

Известен способ сокращения объемов сохраняемых документов в памяти компьютера при помощи программ-архиваторов [Черников Б.В. Офисные информационные технологии: Практикум. - М.: Финансы и статистика, 2007; Ратушняк А., Юкин В., Ватолин Д., Смирнов М. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео.- М.: Диалог-МИФИ, 2003]. К недостаткам данного способа следует отнести то, что обработка документа в этом случае производится после его создания и сохранения на диске, а для восстановления его в первоначальном виде необходимо «распаковать» созданный архив, проведя обратную архивированию операцию. Сокращение объема при таком способе преобразования документа («архивировании») в большей степени относится именно к его содержательной (текстовой) части, в то время как объем графических элементов сокращается («сжимается») незначительно.

Задачей предлагаемого изобретения является сокращение объемов слабоформализуемых документов при хранении в памяти компьютера.

Поставленная задача решается тем, что в предлагаемом способе преобразования слабоформализуемых документов проводят лексикологический синтез документа, формирование документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксация индексной последовательности, сжатие индексной последовательности, формирование информационного пакета документа, хранение его в компьютерной памяти, последующее восстановление документа, включающее чтение информационного пакета, восстановление исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа, с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении.

Сущность изобретения поясняется фиг.1-5.

На фиг.1 изображена блок-схема последовательности операций, иллюстрирующая сущность способа хранения слабоформализуемых документов в соответствии с изобретением.

На фиг.2 изображена блок-схема последовательности операций, иллюстрирующая собственно процесс автоматизированной фиксации индексной последовательности при формировании документа при его создании в соответствии с изобретением.

На фиг.3 изображена лексикологическая схема фиксации фрагмента индексной последовательности при создании протокола осмотра пациента медицинского учреждения при проведении гастроскопии.

На фиг.4 изображена блок-схема последовательности операций, иллюстрирующая собственно процесс автоматизированного восстановления документа при его восстановлении для чтения или редактирования на основе зафиксированной индексной последовательности в соответствии с изобретением.

На фиг.5 изображена блок-схема компьютерной системы, реализующей способ хранения слабоформализуемых документов в соответствии с изобретением.

Предлагаемый способ осуществляют следующим образом.

В соответствии с решаемыми в данной сфере деятельности задачами устанавливают совокупность реквизитов, расположенных в определенной последовательности, и определяют местоположение в документе каждого элемента информации, включая дополнительные компоненты, являющиеся неотъемлемыми элементами создаваемого документа (например, графические компоненты, относящиеся к форме документа - логотипы, контейнерные элементы, содержащие реквизиты организации и др.). Это позволяет разработать формуляры документов или формуляры-образцы (унифицировать форму документа). Таким образом, определяют модель построения документа, устанавливают основной набор реквизитов официального письменного документа, размеры полей, требования к формату документа. Определяют зоны унифицированной формы документа, предназначенные для закрепления ее в технических средствах хранения документов, а также для нанесения специальных изображений. Определяют набор реквизитов, необходимых и достаточных для идентификации автора официального документа, которые в дальнейшем в целях экономии времени постоянно вносятся в бланк документа программными средствами. Перечисленные компоненты документа определяют его форму. Совокупность форм собирают в базу форм документов, причем каждая форма имеет свой индекс, который выбирают на стадии подготовки передаваемого документа и фиксируют для последующей передачи совместно с последующей индексной последовательностью лексикологического дерева документа.

Текстовая часть документа формируется автоматизированным лексикологическим способом путем обхода лексикологического дерева [Б.В.Черников. Способ автоматизированного лексикологического синтеза документов. - Патент РФ №2253893]. Каждой формулировке документа ставится в соответствие основное слово, выбор которого однозначно определяет наличие конкретной формулировки в документе. Такие слова называются опорными и из них составляют лексикологическую схему формируемого документа. Взаимная зависимость опорных слов в совокупности определяет последовательность обхода маршрута формирования документа. На основе предварительного анализа структуры документа выявляются основные разделы, которые должны или могут присутствовать в документе. Условные наименования таких разделов составляют основу синтезируемой совокупности опорных слов. В рамках каждого зафиксированного раздела документа выявляют составные элементы, которые должны или могут входить в состав раздела (слово, фраза, текстовый фрагмент). Для каждого подобного составного элемента определяют опорное слово (или их совокупность), выбор которого в последующем однозначно будет определять внедрение в документ соответствующего компонента. Если фрагмент текста документа содержит значительное количество строк и всегда присутствует в документе в строго определенной последовательности построения предложений, то данный фрагмент текста определяется одним опорным словом. Однако в случаях, когда текст документа формируется из предложений, не фиксированных в строго определенной последовательности, и в каждом заново создаваемом документе наблюдаются вариации построения текста, опорных слов будет столько, сколько необходимо для однозначного определения каждого конкретного предложения или словосочетания.

Полный перечень опорных слов с учетом их взаимосвязей образует лексикологическое дерево документа, «прохождение» по ветвям которого обеспечит выбор формулировок, используемых в документе. При этом выбор тех или иных опорных слов будет означать необходимость внедрения в документ совершенно конкретных вариантов текстовых фрагментов. Фактически текст документа формируют путем выбора необходимых заготовок из числа сохраненных формулировок. Выбор того или иного опорного слова означает выбор требуемого индекса компонента в лексикологическом дереве документа. При выборе опорных слов индекс выбираемых слов фиксируется, составляя в совокупности документарную индексную последовательность, соответствующую пройденным опорным пунктам маршрута по лексикологическому дереву.

Пример фиксации фрагмента индексной последовательности при автоматизированном формировании протокола осмотра пациента при проведении гастроскопии изображен на фиг.3. Первый уровень - уровень типа гастроскопии, второй - уточнение типа (причины ургентной гастроскопии, манипуляции при лечебной гастроскопии), третий - конкретизация манипуляций при лечебной гастроскопии, четвертый - характеристика состояния пациента, пятый - характеристика оперативных действий.

На лексикологическом дереве, например, показано, что при выборе типа гастроскопии можно выбрать лечебную. В этом случае для уровня типа гастроскопии 1 фиксируется индекс 3.

При выборе лечебной гастроскопии необходимо далее выбирать нужные манипуляции. Пусть пользователем выбраны манипуляции «Электрокоагуляция полипа» и «Электроэксцизия полипа». В этом случае для уровня 2 фиксируется индексная последовательность «1+6», которая означает совместный выбор позиций 1 и 6.

В третьем уровне для позиции 6 второго уровня необходимо конкретизирующие позиции. Пусть выбрана одномоментная электроэксцизия полипа для отдела «Желудок» с хорошим струпом, незначительным кровотечением и извлечением полипа. В этом случае фиксируется индексная последовательность «3-6-2,1,1,2,1».

На четвертом уровне пусть выбирается характеристика «Полипэктомия», в этом случае фиксируется индекс «4-2».

В целом для документального описания зафиксированная индексная последовательность, включаемая в документарный индексный пакет, может выглядеть следующим образом:

1-1+2+4; 2-3; 3-0; 4-1+2+3; 6-1; 7-1; 8-1+3+4; 9-2+4; 10-1+5+7.

С учетом содержательной части формируемого документа, а также текстовых элементов, присущих данному виду документа, приведенный пример может быть аналогом следующего фрагмента (в документе не использованы графические компоненты):

Как видно из приведенного примера, даже в таком виде сформированный документарный индексный пакет по объему значительно уступает исходному тексту.

Для дополнительного сокращения объемов информации, содержащейся в информационном пакете, осуществляется встроенная в компьютерную систему обработка полученной индексной последовательности, направленная на сжатие последовательности байтов на основе построения бинарного дерева, основанного на подсчете частоты вхождения в информационный пакет каждого из содержащихся в нем символов.

Сформированный информационный пакет сохраняется на носителе информации.

При восстановлении документа для чтения или редактирования проводят лексикологический синтез, т.е. формируют текстовые фрагменты с помощью компьютерной системы. Сначала проводят чтение информационного пакета и восстановление исходной документарной индексной последовательности путем операции, обратной сжатию, а затем осуществляют непосредственное формирование документа (с учетом индекса его формы) путем создания фраз на основе использования набора опорных (ключевых) слов, комплектуемого в соответствии с содержанием переданной индексной последовательности, с автоматическим связыванием фрагментов и отдельных слов текста в соответствии с правилами орфографии и лексикологии. Необходимую связь между словами в используемых фразах, путем некоторого изменения отдельных слов в формулировках в целях их согласованного применения (с точки зрения правил синтаксиса), обеспечивают программные средства.

Автоматизированное формирование документа осуществляется с использованием специализированной программы и стандартного компьютера. Формирование документа ведется в диалоговом режиме с автоматическим пошаговым «наращиванием» объема текста за счет внедрения конкретных формулировок, связанных с зафиксированными индексами опорными словами. Унифицированная постоянная информация внедряется в документ автоматически.

Последовательность операций, выполняемых при восстановлении документа по сохраненной индексной последовательности опорных слов, изображена на фиг.4.

Восстановление формы документа производят из базы данных форм документов на основе индекса формы, после чего постоянную информацию считывают из базы данных и формируют заголовок.

Организуют цикл восстановления опорных слов для имитации прохождения по лексикологическому дереву формируемого документа. В рамках этого цикла на основе принятых индексов опорных слов считывают из базы знаний требуемые опорные слова. Затем производят проверку, предусмотрена ли в числе сохраненных формулировка, относящаяся к выбранному опорному слову. Если формулировка не предусмотрена, то есть ответ на вопрос НЕТ, то внедряют содержание свободной формулировки. Затем в текст формируемого документа внедряют очередную формулировку. Далее производят переход к следующему шагу цикла, который повторяют до исчерпания индексов опорных слов лексикологического дерева документа в сохраненной индексной последовательности. Затем формируют раздел подписей документа, для которого используют восстановленный индекс подписей и считанную в соответствии с ним из базы знаний информацию. Для проверки выполненной работы предусмотрено отображение сформированного документа на экране монитора.

Структура системы хранения слабоформализуемых документов приведена на фиг.5. При создании документа с помощью лексикологического дерева документа, связанного с базой знаний и комплексом форм документов, фиксируется индексная последовательность формируемой информации, которая после дополнительной обработки, направленной на сжатие длины индексной последовательности, сохраняется на носителе информации (например, на жестком диске). При открытии документа на чтение или редактирование после обработки индексной последовательности, обратной сжатию, осуществляется восстановление индексной последовательности при использовании согласованного лексикологического дерева документа, связанного с комплексом форм документов и базой знаний, содержащей заготовки фрагментов документа, формируемого путем прохождения по лексикологическому дереву.

Анализ результатов экспериментальной проверки предлагаемого способа преобразования слабоформализуемых документов для минимизации их объема при хранении показывает существенное сокращение объемов (до десятков и даже сотен раз) по сравнению с исходным текстом. Дополнительным достоинством является возможность восстановления не только содержания, но и формы передаваемого документа, включая графические компоненты.

Способ автоматизированного создания слабоформализуемых документов, предусматривающий лексикологический синтез документа, формирование документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксацию индексной последовательности, сжатие индексной последовательности, формирование информационного пакета документа, хранение его в компьютерной памяти, последующее восстановление документа, при котором осуществляют чтение информационного пакета, восстановление исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, затем восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа, с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении.

Изобретение относится к пользовательским интерфейсам прикладных программ. .

Способ предварительной обработки текста // 2386178

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний.

Способ и система для преобразования иерархической структуры данных на основе схемы в плоскую структуру данных // 2378690

Изобретение относится к способам и системам для преобразования иерархической структуры данных в плоскую структуру данных. .

Способы и системы разметки документов // 2370810

Изобретение относится к обработке документов. .

Система и способ фильтрации и организации элементов на основе общих свойств // 2368947

Изобретение относится к системе и способу визуального отображения элементов, и в частности к системе и способу фильтрации и организации элементов на основе общих свойств.

Система для идентификации перефразирования с использованием технологии машинного перевода // 2368946

Изобретение относится к идентификации перефразирования в тексте. .

Способ обработки цифровых рукописных примечаний для распознавания, привязки и переформатирования цифровых рукописных примечаний и система для его осуществления // 2357284

Изобретение относится к способу обработки цифровых документов и содержащихся в них цифровых рукописных примечаний произвольного вида. .

Обработка электронных чернил // 2351982

Изобретение относится к обработке электронных документов, содержащих аннотации, выполненные электронными чернилами. .

Способ отображения страниц при предварительном просмотре // 2348975

Изобретение относится к вычислительной технике и может быть использовано для работы пользователя при подготовке документов к печати. .

Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов // 2345416

Изобретение относится к области информационно-поисковых, аналитических, интеллектуальных систем и может быть использовано для создания новых компьютерных комплексов, применяющих стохастическую технологию в ходе интеллектуальной обработки текстов в электронном виде.

Безопасность на основе области // 2413978

Способ и система установки и связи с сервером связующего программного обеспечения радиочастотной идентификации с сервера системы планирования ресурсов предприятия // 2412467

Устройство формирования и проверки заверенного цифровым водяным знаком электронного изображения // 2411579

Изобретение относится к средствам защиты подлинности электронных изображений, сжимаемых алгоритмами сжатия электронных изображений, такими как JPEG, MPEG-2, передаваемых отправителем получателю по общедоступным каналам передачи, в которых нарушитель может осуществлять действия по навязыванию получателю ложных электронных изображений.

Способ управления запоминающим устройством, включающим в себя элементы, в которых предусмотрена информация идентичности, обозначающая происхождение упомянутых элементов // 2411573

Изобретение относится к способам управления запоминающим устройством. .

Устройство обработки информации, способ обработки информации и компьютерная программа // 2411572

Изобретение относится к устройствам и способам обработки информации. .

Устройство кросс-кластерной управляемой перестановки информации, хранимой в персональной эвм // 2409842

Изобретение относится к области вычислительной техники, в частности к кодированию информации, и может быть использовано в системах коммуникации и защиты информации от несанкционированного доступа.

Способ актуализации информации в базах данных объектов управления автоматизированной системы управления специализированного назначения // 2409841

Изобретение относится к области информационного обеспечения автоматизированных систем управления (АСУ) и может найти применение в системах передачи информации, состоящих из автоматизированных рабочих мест объектов управления (ОУ) в сложных многоуровневых разнесенных АСУ.

Устройство обеспечения безопасного формирования параметров // 2408924

Изобретение относится к вычислительной техники и может быть использовано в устройствах обеспечения безопасности информации в процессе ее преобразования и хранения.

Механизмы обнаруживаемости и перечисления в иерархически защищенной системе хранения данных // 2408070

Изобретение относится к области систем хранения данных. .

Способ автоматического определения оптимального размера окна опережающего считывания в средствах мониторинга // 2414744

Изобретение относится к области обработки данных в вычислительных системах, а именно к способам автоматического определения оптимального размера окна опережающего считывания