Способ автоматизированного лексикологического синтеза документов

Изобретение относится к автоматизированному синтезу текстовых документов. Способ включает создание и сохранение унифицированной формы документа, классификацию содержания документа, сохранение постоянной информации в базах данных, внесение постоянной информации в унифицированную форму документа и введение переменной информации в документ. Технический результат в виде снижения вероятности появления ошибок и сокращения трудозатрат достигается благодаря тому, что в переменной информации выделяют переменную унифицированную информацию (устойчивые формулировки), переменную вводимую информацию (конкретизирующие сведения) и переменную неунифицированную информацию (свободные формулировки), причем переменную унифицированную информацию выделяют как совокупность опорных слов, составляющих лексикологический скелет документа, и сохраняют в машиночитаемой базе данных, формируют лексикологическое дерево документа и формируют информационный контур управления документом, а при формировании документа, последовательно проходя по выбранным ветвям сформированного лексикологического дерева документа, выбирают необходимые опорные слова для внедрения соответствующих им формулировок в формируемый документ. 2 з.п. ф-лы, 6 ил.

 

Изобретение относится к способам автоматизированного синтеза (формирования, создания) текстовых документов.

Документ представляет собой сложную информационную совокупность, характеризующуюся множеством различных параметров (состав реквизитов, их содержание, формат, тип носителя, правила расположения информации по полю документа и т.д.), каждый из которых может быть принят за объект унификации. Несмотря на огромное число разнотипных документов с множеством параметров, в каждом из них различают форму и содержание. Полноценный процесс унификации документа предполагает наличие двух составляющих: унификацию формы и унификацию содержания документа.

Известен способ формирования текстовых документов [Е.К.Губская, О.П.Дорофеева. Стенография. Компьютерная машинопись. Делопроизводство. - РнД, 2001] вводом информации с клавиатуры путем прямого набора текста. В этом случае трудозатраты на формирование документов оказываются весьма существенными. Кроме того, набору текста часто сопутствует появление орфографических и синтаксических ошибок, вызванных, например, техническими погрешностями или недостаточно высоким уровнем грамотности исполнителя документа.

Известен типизационный способ формирования текстовых документов [ГОСТ 6.15.1-75 ″Унифицированные системы документации. Система организационно-распорядительной документации. Общие положения″] путем создания сборников типовых текстов, на основе которых формируется текст конкретного документа.

Наиболее близким к предлагаемому является способ формирования текстовых документов путем унификации (трафаретизации) форм и текстов документов [Л.А.Ковш и др. Унификация текстов управленческих документов: Методические рекомендации. - Москва, ВНИИДАД, 1998], в котором выделяют постоянную и переменную информацию. При этом постоянная информация является общей темой, известной автору и адресату, и вносится в бланк документа при его изготовлении, а переменная информация конкретизирует тему, обозначенную постоянной частью текста, и вносится в бланк в процессе составления конкретного документа.

Недостатком известного способа также являются достаточно большие трудозатраты, необходимые для формирования текстовых документов, и большая вероятность появления в них ошибок.

Задачей предлагаемого изобретения является снижение вероятности появления ошибок и сокращение трудозатрат, необходимых для формирования текстовых документов.

Поставленная задача решается тем, что в предлагаемом способе автоматизированного лексикологического синтеза (создания, формирования) документов, включающем создание и сохранение унифицированной формы документа, классификацию содержания документа путем выделения унифицированной постоянной информации и переменной информации, сохранения постоянной информации в базах данных, внесения постоянной информации в унифицированную форму документа и введения переменной информации в документ, в переменной информации выделяют переменную унифицированную информацию, связанную с устойчивыми формулировками, переменную вводимую информацию, представляющую собой конкретизирующие сведения, и переменную неунифицированную информацию, содержащую свободные формулировки, причем переменную унифицированную информацию выделяют путем формирования совокупности опорных слов, однозначно определяющих конкретные формулировки в документе и составляющих лексикологический скелет документа, и сохраняют в виде базы данных с избытком по отношению к отдельно взятому экземпляру документа, формируют лексикологическое дерево документа путем определения взаимозависимости отдельных опорных слов и затем формируют информационный контур управления документом путем установления способа внедрения формулировок переменной унифицированной и неунифицированной информации в зависимости от характера связи опорного слова с фрагментом документа, после чего, при автоматизированном формировании документа, последовательно проходя по установленным ветвям лексикологического дерева документа, выбирают необходимые опорные слова для внедрения нужных формулировок в формируемый документ.

Поставленная задача решается также тем, что переменную неунифицированную информацию вводят в документ прямым набором с клавиатуры.

Поставленная задача решается также тем, что информационный контур управления документом формируют с помощью специальной программы.

Сущность изобретения поясняется фиг.1-6.

На фиг.1 - блок-схема последовательности операций, иллюстрирующая подготовку документа к автоматизированному лексикологическому синтезу в соответствии с изобретением;

фиг.2 - блок-схема последовательности операций, иллюстрирующая собственно процесс автоматизированного лексикологического синтеза (формирования) документа в соответствии с изобретением;

фиг.3 - схема моделей формирования документа;

фиг.4 - пример лексикологического дерева документа;

фиг.5 - пример информационного контура управления документом;

фиг.6 - пример процедуры автоматизированного формирования документа.

Предлагаемый способ осуществляют следующим образом.

В соответствии с решаемыми в данной сфере деятельности задачами устанавливают совокупность реквизитов, расположенных в определенной последовательности, и определяют местоположение в документе каждого элемента информации. Это позволяет разработать формуляры документов или формуляры-образцы (унифицировать форму документа). Таким образом, определяют модель построения документа, устанавливают основной набор реквизитов официального письменного документа, размеры полей, требования к формату документа. Определяют зоны унифицированной формы документа, предназначенные для закрепления ее в технических средствах хранения документов, а также для нанесения специальных изображений. Определяют набор реквизитов, необходимых и достаточных для идентификации автора официального документа, которые в дальнейшем в целях экономии времени постоянно вносятся в бланк документа программными средствами. В бланк входит, как правило, та информация, которая постоянно присутствует в служебном документе: наименование автора документа, вид документа, дата создания, регистрационный номер, место составления или издания. После проведения унификации формы документа производят ее сохранение предпочтительно в базе данных компьютера, содержащей все унифицированные формы документов, подлежащих автоматизированному формированию.

Классификацию содержания документа производят на основе результатов унификации содержания документа. Унификацию содержания документов проводят по трем направлениям: составу информации, структуре текста, языковым средствам представления информации.

Унификация состава текста документа состоит в установлении необходимой и достаточной информации для решения конкретной проблемы, то есть устанавливается минимальный перечень показателей, которые должны быть включены в документ для того, чтобы этот документ мог участвовать в реализации задачи.

При унификации устанавливают дублирующие и неиспользуемые показатели, вносят отсутствующие ранее показатели, упрощают состав показателей на основе установления состава информации в целом по задаче. Унификацию текста по составу информации сопровождают компрессией (сжатием, сокращением при сохранении основного смыслового значения). На семантическом уровне она заключается в опущении менее существенной части информации, а также в выделении из текста документа информации в виде реквизитов, характеризующих его в пространстве и во времени, подтверждающих его юридическую силу.

Текстовая часть реквизитов, показатели в документе располагаются с учетом логической последовательности их заполнения, обработки, считывания, перенесения информации на машинный носитель, с рациональным использованием площадей поля документа. Таким образом, унификация состава информации решает вопросы синтезирования, сжатия, достижения оптимальной полноты, а также отсутствия дублирования и избыточности информации в содержании документа.

Таким образом, унификация содержания текста документа является источником определения оптимального объема информации, необходимого для формирования документа. Унификацию структуры текстов проводят в целях выбора расположения смысловых компонентов текста, наиболее отвечающей назначению документа. Объектом анализа на этой стадии являются возможные формулировки, совокупность которых, собранная в определенной последовательности, образует текст документа. Для этого проводят анализ различных текстов документа одного вида. В результате анализа и обобщения установленных закономерностей в структуре построения текста документа, его содержательной части делают вывод о необходимости и возможности применения единых, общих или типовых формулировок, присутствующих в документах подобного вида и связанных с определенной управленческой ситуацией.

Далее проводят классификацию информации, которая впоследствии будет использоваться при автоматизированном формировании документа. Анализ информации, используемой при формировании документа, позволяет объединить используемые сведения в информационные потоки различной структуры. Подобная классификация позволяет подготовить необходимую информационную базу, состоящую из потоков информации, каждый из которых несет определенную функциональную нагрузку. Кроме того, при классификации информации должна учитываться возможность минимизации ручного ввода информации с клавиатуры.

Классификацию содержания документа проводят, выделяя при этом из текста документа следующие типы информации:

- постоянную унифицированную информацию, содержащую редко изменяемые формулировки, которые позже будут внедряться в текст документа автоматически (компьютерной системой);

- переменную унифицированную информацию, связанную с устойчивыми формулировками, которые позже будут привязываться к опорным словам;

- переменную вводимую информацию, представляющую конкретизирующие сведения (например, табличные данные, отдельные фамилии);

- переменную неунифицированную информацию, содержащую свободные формулировки.

В случае затруднения при определении полного набора формулировок текстовых фрагментов целесообразно обеспечение возможности ввода свободных формулировок прямым набором текста. В качестве свободных формулировок, однозначно связанных с каждым опорным словом, используют слова, или словосочетания, или фразы, или текстовые фрагменты.

Постоянную и переменную унифицированную информацию сохраняют в устройстве массовой памяти.

В заранее унифицированных текстах документов переменная информация может принадлежать предопределенному множеству вариантов, которое предварительно, путем экспертной оценки, собирают воедино, группируя документы по смысловому признаку.

В ходе унификации документов по содержанию формируют набор (по возможности - полный, т.е. предусматривающий все возможные варианты) формулировок, которые могут присутствовать в различных вариантах документов конкретного вида. При этом необходимо учитывать разнообразие информации, которая может содержаться в каждом отдельном формируемом документе. Следовательно, по отношению к отдельно взятому документу сформированный набор формулировок, относящийся к унифицированной переменной информации, может быть и должен быть избыточным, то есть содержать даже большее количество фрагментов текста, чем это необходимо при составлении отдельно взятого единичного экземпляра документа. Сформированный набор формулировок сохраняют в упорядоченном виде индексированной совокупности элементов (например, в виде базы данных или массива) в компьютере.

Каждой формулировке ставится в соответствие основное слово, выбор которого однозначно определяет наличие конкретной формулировки в документе. Такие слова называются опорными и из них составляют лексикологический скелет формируемого документа. Взаимная зависимость опорных слов в совокупности определяет последовательность обхода маршрута формирования документа. На основе анализа структуры документа выявляются основные разделы, которые должны или могут присутствовать в документе. Условные наименования таких разделов составляют основу синтезируемой совокупности опорных слов. В рамках каждого зафиксированного раздела документа выявляют составные элементы, которые должны или могут входить в состав раздела (слово, фраза, текстовый фрагмент). Для каждого подобного составного элемента определяют опорное слово (или их совокупность), выбор которого в последующем однозначно будет определять внедрение в документ соответствующего компонента. Если фрагмент текста документа содержит значительное количество строк и всегда присутствует в документе в строго определенной последовательности построения предложений, то данный фрагмент текста определяется одним опорным словом. Однако в случаях, когда текст документа формируется из предложений, не фиксированных в строго определенной последовательности, и в каждом заново создаваемом документе наблюдаются вариации построения текста, опорных слов будет столько, сколько необходимо для однозначного определения каждого конкретного предложения или словосочетания.

Полный перечень опорных слов с учетом их взаимосвязей образует лексикологическое дерево документа, ″прохождение″ по ветвям которого обеспечит выбор формулировок, используемых в документе. При этом выбор тех или иных опорных слов будет означать необходимость внедрения в документ совершенно конкретных вариантов текстовых фрагментов. Фактически, текст документа формируют путем выбора необходимых заготовок из числа сохраненных формулировок. Структура лексикологического дерева сходна с композицией текста документа. Степень ветвления лексикологического дерева зависит от объема множества вариаций текста документа, определяемых его сложностью и различием документируемых ситуаций. В качестве опорного слова могут выступать различные части речи, определяющие сущность предписываемого действия. При генерации лексикологического дерева следует соблюдать критерии управления лексическими конструкциями. Опорное слово должно быть уникальным для конкретной конструкции, а при необходимости - уточняться другими опорными словами, иначе выбор требуемого текстового фрагмента может быть определен неверно. Уточнение одного опорного слова другим образует их иерархическую подчиненность в структуре лексикологического дерева. Проведение цикла выбора определенной последовательности опорных слов означает формирование экземпляра документа конкретного вида

где ϕ - текущее опорное слово, Iв - количество опорных слов для документа Дв конкретного вида, i - условный номер (индекс) текущего опорного слова, ψв - множество опорных слов документа данного вида.

Следует отметить, что последовательный цикл выбора опорных слов без отсечения, справедлив лишь для случая обязательного прямого выбора (Фиг.3, а) всей последовательности опорных слов документа. В этом случае все опорные слова документа должны быть в обязательном порядке выбраны. Именно это обстоятельство определяет наличие логической производящей функции в выражении (1). Тем не менее, более общим случаем является вариант выбора опорных слов с отсечением (Фиг.3, б), когда выбор очередного опорного слова зависит от того, какое опорное слово было выбрано на предыдущем шаге цикла. При этом для конкретного экземпляра документа формируется определенный маршрут выбора опорных слов, отсекающий ряд боковых ветвей. Модель формирования документа подобного типа может иметь вид

где логическим суммированием, характеризующим образование конкатенации текстовых фрагментов документа, учтено, что выбираются не все опорные слова, а лишь некоторые из них, хотя все они, безусловно, принадлежат множеству опорных слов документа данного вида.

Пример фрагмента лексикологического дерева, синтезированный для автоматизированного формирования протокола осмотра пациента при проведении гастроскопии, изображен на фиг.4. На лексикологическом дереве, например, показано, что при выборе лечебной гастроскопии необходимо далее выбирать нужные манипуляции, при выборе из которых варианта ″обкалывание краев язвы″ следует выбрать только необходимый отдел ″пищевод″, ″желудок″, ″луковица″, ″12-перстная кишка″.

В случае же выбора варианта операции ″электроэксцизия полипа″ далее потребуется уточнить отдел, после чего вариант проведения электроэксцизии ″одномоментная″, ″поэтапная″, ″кускованием″. Далее требуется определить характеристики струпа ″хороший″, ″глубокий″, ″нестойкий″, указать характеристику кровотечения ″отсутствует″, ″незначительное″, ″обильное″, ″профузное″, после чего определить состояние полипа ″извлечен″, ″не извлечен″, ″потерян″.

Выбор варианта лечебной гастроскопии ″облучение лучами лазера″ потребует указания объекта облучения ″язвы″, ″эрозии″ и последующий выбор отдела пищеварительного тракта ″пищевод″, ″желудок″, ″луковица″, ″12-перстная кишка″.

В том случае, если выбираются варианты лечебной гастроскопии ″электрокоагуляция полипа″, ″блокирование анастомоза″, ″установка зонда″, ″удаление инородного тела″, ″проведение струны″, дополнительных конкретизаций, как видно из лексикологического дерева, не требуется, и производится последующий обход сформированного дерева.

В зависимости от характера информации, связанной с тем или иным опорным словом, устанавливают различные виды связей. От вида связи зависит способ внедрения фрагмента информации в формируемый документ. Так, например, унифицированная постоянная информация внедряется в документ автоматически программными средствами, а унифицированная переменная информация - путем выбора требуемой формулировки из приведенного перечня. Отображение способа внедрения фрагмента производят в информационном контуре управления документом.

В связи с этим осуществляют формирование информационного контура управления документом. Данный этап необходим для установления способа внедрения формулировок (автоматически, путем выбора из предлагаемой совокупности, прямым вводом информации с клавиатуры).

Пример информационного контура управления для документа ″Акт готовности кафедры к новому учебному году″, сформированный для автоматизированного формирования в высшем учебном заведении, изображен на фиг.5. Левый столбец представляет собой формулировки, которые, по структуре документа, должны быть дополнены определенным объемом информации, определяемой дополнительными опорными словами, с указанием способа внедрения информации. Так, например, название документа ″Акт готовности к учебному году″ дополняется данными о конкретном учебном годе, которые внедряются прямым вводом с клавиатуры. Раздел документа ″Основание″ составления акта дополняется фрагментом с формулировкой ″приказ″, ″распоряжение″, ″указание″, ″директива″, которая выбирается из предлагаемого перечня и, в свою очередь, дополняется вводимой информацией о номере и дате документа-основания. При формировании раздела документа ″Выводы″ внедрение информации производят в зависимости от результатов выбора варианта:

а) если выбирается вариант готовности кафедры, то фрагмент дополняется повторно используемыми сведениями о конкретном учебном годе и наименовании кафедры;

б) если выбирается вариант неготовности кафедры, то, помимо дополнения повторно используемыми сведениями о конкретном учебном годе и наименовании кафедры, в раздел внедряются необходимые формулировки недостатков, выбираемые из предлагаемого перечня, а также пункты рекомендаций, формируемые прямым вводом с клавиатуры.

Далее проводят лексикологический синтез, т.е. формируют текстовые фрагменты с помощью компьютерной системы путем создания фраз на основе использования набора опорных (ключевых) слов, комплектуемого по результатам предварительно проведенной содержательной унификации документа, с автоматическим связыванием фрагментов и отдельных слов текста в соответствии с правилами орфографии и лексикологии. Необходимую связь между словами в используемых фразах, путем некоторого изменения отдельных слов в формулировках в целях их согласованного применения (с точки зрения правил синтаксиса), обеспечивают программные средства.

Автоматизированное формирование документа осуществляется с использованием специализированной программы и стандартного компьютера. Формирование документа ведется в диалоговом режиме с автоматическим пошаговым ″наращиванием″ объема текста за счет внедрения конкретных формулировок, связанных с выбранными пользователем опорными словами. Унифицированная постоянная информация внедряется в документ автоматически.

Последовательность операций, выполняемых при автоматизированном формировании документа, изображена на фиг.6 на примере ″Акта готовности кафедры к новому учебному году″, создаваемого каждой кафедрой высших учебных заведений.

Сначала производят считывание сохраненной унифицированной постоянной информации. Затем формируют заголовок документа с внедрением считанной постоянной информации, организуют цикл выбора опорных слов для прохождения по лексикологическому дереву формируемого документа. В рамках этого цикла пользователь производит выбор требуемого опорного слова. Затем производят проверку, предусмотрена ли в числе сохраненных формулировка, относящаяся к выбранному опорному слову. Если формулировка не предусмотрена, т.е. ответ на вопрос НЕТ, то пользователь вводит содержание свободной формулировки. Затем в текст формируемого документа внедряют очередную формулировку. Далее производят переход к следующему шагу цикла, который повторяют до исчерпания опорных слов в лексикологическом дереве документа. Затем формируют раздел подписей документа, для которого используют считанную ранее постоянную информацию. Для проверки выполненной работы предусмотрено отображение сформированного документа на экране монитора.

Анализ результатов экспериментальной проверки предлагаемого способа автоматизированного лексикологического синтеза (создания) документов при формировании документов различного вида (актов, приказов, договоров, контрактов и других) показывает, что объем информации, вводимой прямым набором с клавиатуры, для конкретных экземпляров документов не превышает 7-10% от общего объема документа. Эффективность использования предлагаемого способа обусловлена существенным снижением трудозатрат персонала при формировании текстовых документов. Так, например, время, необходимое для составления типового трудового контракта, сокращается в 5-7 раз при использовании предлагаемого способа. Значительный выигрыш во времени сопровождается, помимо всего, повышением качества документа, которое проявляется в большой детализации текста при внедрении описательных фрагментов и невозможности "пропуска" отдельных фрагментов документа, обеспечивая последовательность и логику изложения текста.

1. Способ автоматизированного лексикологического синтеза документов, включающий создание и сохранение унифицированной формы документа, классификацию содержания документа путем выделения унифицированной постоянной информации и переменной информации, сохранения постоянной информации в базах данных, внесения постоянной информации в унифицированную форму документа и введения переменной информации в документ, отличающийся тем, что в переменной информации выделяют переменную унифицированную информацию, связанную с устойчивыми формулировками, переменную вводимую информацию, представляющую собой конкретизирующие сведения, и переменную неунифицированную информацию, содержащую свободные формулировки, причем переменную унифицированную информацию выделяют путем формирования совокупности опорных слов, однозначно определяющих конкретные формулировки в документе и составляющих лексикологический скелет документа, и сохраняют в машинной базе данных с избытком по отношению к отдельно взятому экземпляру документа, формируют лексикологическое дерево документа путем определения взаимозависимости отдельных опорных слов и затем формируют информационный контур управления документом путем установления способа внедрения формулировок переменной унифицированной и неунифицированной информации в зависимости от характера связи опорного слова с фрагментом документа, после чего при автоматизированном формировании документа, последовательно проходя по выбранным ветвям сформированного лексикологического дерева документа, выбирают из машинной базы данных необходимые опорные слова для автоматического внедрения формулировок, связанных с выбранными опорными словами, в формируемый документ.

2. Способ по п.1, отличающийся тем, что переменную неунифицированную информацию вводят в документ прямым набором с клавиатуры.

3. Способ по п.1 или 2, отличающийся тем, что информационный контур управления документом формируют с помощью программы.



 

Похожие патенты:

Изобретение относится к системам классификации текстовых сообщений. .

Изобретение относится к обработке информационных естественно-языковых текстовых материалов. .
Изобретение относится к вычислительной технике, в частности к работе в сети Интернет. .
Изобретение относится к области электроники и предназначено, например, для использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения.

Изобретение относится к вычислительной технике. .

Изобретение относится к компьютерной системе создания и перевода документов, к системе подготовки текста на языке ограничений и перевода на иностранный язык. .

Изобретение относится к вычислительной технике, в частности к устройствам для обучения, и может быть использовано при изучении иностранного языка. .

Изобретение относится к вычислительной технике и может быть использовано для синтаксического контроля входной последовательности символов. .

Изобретение относится к вычислительной технике и может быть использовано для синтаксического контроля соответствия входной последовательности символов формальной грамматике языка.

Изобретение относится к вычислительной технике и может быть использовано в автоматизированных системах обработки данных и производства программ для ЭВМ. .

Изобретение относится к вычислительной технике, в частности к системе идентификации готовности текстовых документов в сети распределенной обработки данных

Изобретение относится к распознаванию образов из графического изображения, и в частности к распознаванию текста на изображении документа в электронном виде

Изобретение относится к устройствам распознавания написанных знаков

Изобретение относится к способам проверки правильности документа расширяемого языка разметки (XML) и выдачи сообщения о нарушениях схемы в режиме реального времени

Изобретение относится к способам и системам для сегментации текста

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, а более конкретно к представлению данных на основе голосового ввода, осуществляемого пользователем
Наверх