Устройство для обнаружения искажений в тексте

 

ОП ИСАНИЕ

ИЗОБРЕТЕНИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ

Союз Советских

Социалистических республик (ii>920730 (6I ) Лополнительное к авт. свнд-by (22) За алеко 24.03. 80 (21) 2/15613/18" 24 с присоединением заявки йх (23) Приоритет

Опубликовано 15.04.82. Бюллетень Ю 14

Лата опубликования описания 15.04.82

{sI)M. K С 06 F f!/00

1ЬвударстеихМ кхмктат

СССР аю авааи кзебрвтеккй и отхрыткН

{53) УДК 681.%2 (088;8) (72) Авторы изобретения

В.Е.Евстегнеев, А.А.Седаков и С.ИсТимонин (71) Заявитель (54) УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ИСКАЖЕНИЙ

8 ТЕКСТЕ

Изобретение относится к вычислительной технике и может быть исполь зовано в системах обработки текстовой информации.

Известны устройства дпя проверки правильности текстов, содержащие регистр сдвига, память и схемы сравнения и осуществляющие анализ тек" ста на основе априорных вероятностей биграмм, триграмм и более длинных сочетаний симовлов (1).

Н едо ст а то к эти х уст рой ст в состоит в их сложности.

Наиболее близким к предлагаемому по технической сущности является устройство для обнаружения искажений в тексте, содержащее регистр сдвига кодов символов, входом соединенный с информационным входом устройства, а выходом - со входом блока хранения вероятностей би грамм, выходы которого соединены с первыми входами соответствующих схем сравнения, вторымл входами подключены ко входу задания порога, à выходами к регистру фиксации ошибок, вы" ход которого является выходом устройства (2 3.

Недостатон этого устройства состоит в низкой достоверности работы и значительных аппаратурных затратах, так как обнаружение ошибок в тексте основано на существовании для определенного словаря используемого языка ограниченного количества разрешенных биграмм, вероятности которых помещаются в блоке хранения вероятностей биграмм. При этом в устройстве не обнаруживаются ошибки, связанные с изменением длины слова или порядка следования символов в тексте. Кроме того, в нем необходимо использовать блок хранения

20 вероятностей биграмм большой емкос» ти, что требует значительных затрат оборудования.

Целью изобретения является повышение достоверности работы и сокра"

920730 4 щение аппаратурных затрат устройст ва.

Поставленная цель достигается тем, что s устройство, содержащее регистр кодов символов и регистр фиксации ошибок, выход которого является выходом устройства, введены блок выделения слова, включающий два элемента И и дешифратор кода пробела, распределитель, блок дешифрации допустимых биграмм и блок дешифрации допустимых корреляций символов, причем первый выход регистра кодов символов соединен через дешифратор пробела с первым входом первого элемента И, вход — с выходом второ го эле ме нта И, второй выход - с управляющими входами бло" ков дешифрации допустимых биграмм и корр еля ций си мволо в, выходы которых подключены к соответствующим входам регистра фиксации ошибок, а информационные входы через распределительк группе выходов регистра кодов символов, первый и второй входы второго элемента И подключены соо T BBTcT венно к информационному входу устройства и выходу первого элемента И, вторым входом соединенного с тактовым входом устройства.

На чертеже представлена структурная схема устройства.

Устройство содержит регис:тр 1 кодов символов, распределитель 2, подключенный цепями 3 и 4 к блоку 5 дешифрации допустимых биграмм и к блоку 6 дешифрации допусти

В исходном состоянии регистр находится в обнуленном состоянии.

Распределитель 2 вырабатывает нулевые коды. На выходах блоков и 6 и регистра 7 сигналы отсутствуют.

По тактовым сигналам, поступающим по входу 14, через элемент И 10 разрешается последовательное поступление кодов символов текста через элемент И 11, При поступлении неискаженного текста по входу 13 коды символов накапливаются на регистре 1 до тех пор, пок" не появится код очередного пробела. Б этом случае дешифратор 12 формирует сигнал, блокирующий элемент И 10 и прерывающий поступление кодов символов через элемент И 11. Таким образом, на регистре 1 оказывается выделенной совокупность кодов символов, соответствующи х сло ву т е к ста .

Распределитель 2 формирует в цепях 3 пары кодов биграммы отношений 2-3, 3-4, и т.д. символов, а в цепях 4 - пары кодов корреляции 2-4, 3-5, 2-5, 3-6 и т.д. символов выделенного слова. В соответствии с кодом первого символа слова, поступающего со второго выхода регистра 1 блоки и 6, осуществляется подключение рабочих дешифраторов кодов пар 2-3, 3-4 и т.д. символов и пар

2-4, 2-5, 3-5, 3-6 и т.д. символов выделенного слова соответственно.

Искажения обнаруживаются блоками 5 и 6 в том случае, если хотя бы одна из биграмм айализируемого слева является запрещенной комбинацией.

Дпя неискаженных слов текста коды отношений символов и корреляции символов, соответ ствующие зафиксированному первому символу слова, являются разрешеннь йи. При этом на выходах блоков 5 и 6 отсутствуют сигналы, а на выходе регистра 7 отсутствуют сигналы об ошибке в тек" сте. Дальнейшая разблокировка поступления кодированного текста через элемент И 11 осуществляется тактовым сигналом с выхода элемента И 10, Работа устройства в случае ошибок в кодированном тексте производится следующим образом.

ДОпустим, чтс ПО вхОду 13 пОступает последоват ел ьн ост ь кодов си мволов текста, соответствующих искаженному слову "NA0K образованному вследствие пропуска символа "У на третьей позиции слова (правильно

"МАЗОК"). Коды символов накапливаются на регистре 1 до гоявления пробела после последне го си мвола "К".

В этому случае дешифратора 12 Формирует сигнал, по которому запрещается поступление кодов символов через элемент И 11. Таким образом, на регистре 1 выделены кодь1 символов слов "ИАОКн

Распределитель 2 вырабатывает в цепях 3 пары кодов отношений 2-3 и

3-4 символов слова, т.е. пары кодов символов "АС" и "ОК". В цепях 4 фор

5 9207 мируются коды корреляции 2-4 (АК) символов слова, просмотр которых осуществляется .с помощью рабочих дешифраторов блоков 5 и 6. Так как пары кодов отношений 2-3 ("АО") и

3-4 ("ОК") символов являются запрещенными комбинациями для слова, на" чинающего с символа "М", то блок 5 вырабатывается си гнал, записываемый в регистр 7, по которому в выход- 10 ной цепи 8 формируется сигнал об ошибке в тексте.

Допустим, что по входу l3 поступает последовательность кодов сим" волов текста, соответствующих иска- 1 женному слову "УКВА " (правильно

"БУКВА" ), образованному вследствие пропуска первого символа "Б" слова.

После ввода слова в регистр 1, т.е. появления кода пробела вслед за по- ЛО следним символом "А", распределитель 2 вырабатывает в цепях 3 пары кодов отношений 2-3 и 3" 4 символов слова, т.е. пары кодов отношений символов "KB и "ВА". В цепях формируются пары кодов корреляции сим..волов 2-4 ("КА") . В блоках 5 и 6 осуществляется анализ кодов символов слова. Так как пары кодов 2-3 ("КВ") и 3-4 ("ВА") символов являются за- зо прещенными комбинациями для слов, начинающихся с символа "У", то на выход блока 5 вырабатывается сигнал об ошибке, поступающий на регистр 7.

flapa кодов 2-4 ("КА") символов является запрещенной для слова, начинающегося с символа "Уи» поэтому рабочие дешифраторы блока б вырабатывают на выходных шинах сигнал, по которому на выходе 8 устройства фор- 4»» мируется сигнал об ошибке в тексте.

Таким образом .осуществляется работа устройства при обнаружении ошибок, связанных с пропуском символов слова. 43

Допустим, что в последовательности символов текста содержится искаженное слово "БУКХВА", образовавшееся вследствие добавления символа

"Х" на четвертую позицию слова правильно(»БУКВА") .

После ввода слова с регистр 1 распределитель 2 вырабатывает в це- пях 3 пары кодов отношений 2" 3, 3-4, 4-5, 5-6 символов слова, т.е. пары кодо в от ношений си мволо в "УК"; "KX"

"ВА". В цепях 4 формируются пары кодов корреляции 2-4, 2-5» 3"5». 3-6 символов, т.е. "УХ", "УВ", "КВ", "KA", Так как пары кодов 3-4 ("КХ") символов, Ф-5 ("ХВ"), 5-6 ("ВА") являются запрещенными комбинациями для слова, начинаоцегося с символа

"Б", то рабочие дешифраторы блока 5 вырабатывают на выходнах шинах сигнал об ошибке, поступающий на регистр 7. Пары колов символов 2-4 (УХ ),2-5 ("УВ"),3-5 ("КВ"),3-6 ("КА") является запрещенными для слова, на.чинающегося с символа "Б", поэтому рабочие дешифраторы блока 6 вырабатывают на выходных шинах сигнал, поступающий в регистр 7, с выхода, которого на выход 8 выдается сигнал об ошибке в тексте.

Использование блока выделения слова позволяет осуществить просмотр смысловых элементов текста - группы символов, заключенных между последовательныип пробелами в тексте. Формирование пар кодов отношений и ко" дов корреляции символов, число которых определяется длиной слова, поэ" воляет учитывать позиции занимаемых символов в слове.

Дешифратор кодов пар символов в зависимости от кода первого символа слова позволяет обнаруживать сочет ани я си мволо в, недопустимые с точки зрения словарных конструкций используемого языка.

Таким образом, устройство позво" ляет исключить возможность пропус" ка ошибок в текстах, связанных с изменением длины слова, что повы" шает достоверность работы устройства. Кроме того, устройство не содержит многоразрядного блока памяти большого объема. формула изобретения

Устройство дпя,обнаружения искажений в тексте, содержащее регистр кодов символов и регистр фиксации ошибок, выход которого является выходом устройства, о т л и ч а ю -щ е е с я тем, что, с целью повышения достоверности работы устройства, в него введены блок выделения слова, включающий два элемента И и дешифратор, распределитель, блок дешифрации допустимых биграмм и блок дешифрации допустимых корреля ций символов, причем первый выход регистра кодов символов соединен через дешифратор с первым входом

920730

ВНИИПИ Заказ 2344/56 Тираж 732, Подписное

Филиал ППП "Патент", г.ужгород, ул.Проектная, 4

7 первого элемента И, вход - с выходом второго элемента И, второй выход - с управляющими входами бло-" ков дешифрации допустимых би грамм и корреляций символов, выходы которых подключены к соответствующим входам регистра фиксации ошибок, а информационные входы через распределитель - к группе выходов регистра кодов символов, первый и второй входы второго элемента И подключены соответственно к информационному входу устройства и выходу пер во го элемента И, вторым входом соединенного с тактовым входом устройства.

Источники информации, принятые во внимание при экспертизе

1. !ЕЕЕ Transactions on Computer

vol. с 23 1974, N 5,Мау, р.р. 4841в 485.

2. Патент США N 3188609, кл. 340-146.1,.1965 (прототип).

Устройство для обнаружения искажений в тексте Устройство для обнаружения искажений в тексте Устройство для обнаружения искажений в тексте Устройство для обнаружения искажений в тексте 

 

Похожие патенты:
Изобретение относится к области электроники и может быть использовано, например, в способе взаимосвязанного активирования компьютерных кодов в виде символов и соответствующих им фрагментов изображения
Изобретение относится к области электроники и предназначено, например, для использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения

Изобретение относится к издательскому делу и может быть использовано для подготовки и выпуска справочных изданий

Изобретение относится к системам классификации текстовых сообщений

Изобретение относится к взаимному преобразованию документа (например, документа на языке XML) и программного объекта (например, объекта языка Java)

Изобретение относится к распознаванию образов из графического изображения, и в частности к распознаванию текста на изображении документа в электронном виде

Изобретение относится к техническим средствам информатики и вычислительной техники и может быть использовано для решения задач по составлению словарей, справочников, а также по созданию баз данных

Изобретение относится к вычислительным компонентам для упорядочивания графических элементов, отображаемых через графический пользовательский интерфейс

Изобретение относится к техническим средствам информатики и вычислительной техники и может быть использовано для решения задач автоматизированного сравнения и анализа на основе преобразования неструктурированного потока входных данных в объектную форму

Изобретение относится к способам выбора шрифта, которые используют документы языка разметки для задания одного или нескольких критериев выбора
Наверх