Способ контроля достоверности распознавания символов

 

СПИ НИЕ

ИЗОБРЕТЕНИЯ пп 533947

Союз Советских

Социалистических

Республик

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ (61) Дополнительное к авт. свид-ву (22) Заявлено 13.08.73 (21) 1956399/24 (51) М. Кл.-" G 06К 9/00 с присоединением заявки №

Государственный комитет

Совета Министров СССР по делам изобретений и открытий (23) Приоритет

Опубликовано 30.10.76. Бюллетень № 40

Дата опубликования описания 18.11.76 (53) УДК 621.391.19 (088.8) (72) Автор изобретения

В. К. Коршак

Ордена Ленина институт кибернетики АН Украинской CCP (71) Заявитель (54) СПОСОБ КОНТРОЛЯ ДОСТОВЕРНОСТИ РАСПОЗНАВАНИЯ

СИМВОЛОВ

Изобретение относится к области кибернетики и вычислительной техники и может быть использовано для контроля достоверности распознавания символов читающим автоматами.

Будучи отлажен перед началом эксплуатации, читающий автомат со временем теряет настройку, качество распознавания его ухудшается. Чтобы определить момент, когда нужно прекратить работу и поставить читающий автомат на подналадку, необходимо периодически проверять качество распознавания по всем распознаваемым данным типом автоматов классам изображений.

Известен способ оценки качества распознавания (1), использующий полную характеристику плотности распределения признаков при их пороговом выделении.

Известный способ основан на теоретическом определении достоверности распознающих устройств и технически трудно реализуется.

Наиболее близким по существу к предлагаемому способу является известный способ контроля достоверности распознавания символов (2), основанный на формировании контрольной выборки изображений символов.

Согласно этому способу контролируемому читающему автомату предъявляют для распознавания контрольную выборку изображеК ний символов, содержащую A= различ0Ш ных изображений символов всех классов, составляющих входной алфавит читающего автомата, где /з — коэффициент, определяемый требуемой доверительной вероятностью оценки, например для доверительной вероятности, равной 90%; 2=2, 3; P, — вероятность ошибки, характеризующая достоверность распознавания данного автомата. Для современных читающих автоматов значение Р, =1. . 10 —:1 10, так что массив подлежащих считыванию на контролируемом читающем автомате документов должен содержать не менее нескольких миллионов знаков.

15 Большой объем подлежащих считыванию на контролируемом читающем автомате знаков является основным недостатком известного способа, так как время выполнения проверки достоверности читающего автомата по извест20 ному способу составляет несколько часов машинного времени даже в случае применения современных электронных вычислительных машин для обработки результатов проверки.

Цель изобретения — сокращение времени

25 контроля.

Это достигается тем, что изображения символов контрольной выборки синтезируют совмещением изображений каждых двух символов из входного алфавита.

30 В синтезированных изображениях символов контрольной выборки удаляют несовпадающие

533947

65 между собой фрагменты изображения символов входного алфавита.

Сущность предлагаемого способа заключается в следующем.

Путем фотомонтажа или другим методом синтезируют изображения символов контрольной выборки для всех возможных пар эталонных изображений символов путем их совмещения так, что к эталонному изображению одного символа добавляются фрагменты изображения другого эталонного символа из входного алфавита.

В результате формируется укороченная контрольная выборка синтезированных изображений символов, ее предъявляют читающему автомату, у которого отключен канал для формирования сигналов, соответствующих отказу от распознавания на неразборчивых символах или знаках.

В синтезированных символах с помощью известных методов (например, ретуши) удаляют несовпадающие фрагменты изображений каждых двух совмещенных между собой эталонных символов.

В результате такой операции получают новый синтезированный символ, отличный от эталонного, который может быть включен в контрольную выборку.

Частным случаем способа по п. 1 является совещение двух букв: ПиН, в результате которого получается синтезированный символ

Н. Исправный и хорошо отлаженный читающий автомат примерно в 50О/о случаев классифицирует такое синтезированное изображение, как Н, и в стольких же случаях, как П. 3атем изготавливают документы, содержащие все синтезированные изображения, и проводят стадию опробования на заведомо исправных читающих автоматах, однотипных с контролируемым. Для дальнейшего использования оставляют граничные изображения, правильно распознаваемые исправными читающими автоматами с вероятностью, возможно более близкой к 50 о/о. Синтезированное изображение считается распознанным правильно, если оно отнесено к любому из классов, из элементов изображений которых это граничное изображение синтезировано. Полученные в результате многократного отбора синтезированные изображения предъявляют для распознавания контролируемого читающему автомату. Если у последнего в результате длительной эксплуатации наметилась тенденция к предпочтению одного из классов, например класс символов Н предпочитается классу П, то это немедленно отразится на распределении ответов при распознавании выборки из граничных изображений типа Н: увеличится число ответов класса Н за счет ответов класса П.

Необходимо отметить, что даже с помощью большой выборки из обычных изображений эту тенденцию предпочтения у контролируемого автомата не всегда можно обнаружить. Таким образом, предлагаемый способ обладает

50 в известной степени диагностическими качествами.

Сравним объем выборки, который требуется для проверки качества распознавания читающего автомата на обычных изображениях, с требуемым объемом выборки граничных изображений. Сравнительный анализ проведем для случая двух классов.

Пусть читающий автомат работает с вероятностью ошибки, равной 10-, а решение о том, что автомат неисправен, принимается, если вероягность ошибки превышает 2.10 — .

Обычная в таких случаях процедура проверки исправности автомата заключается в том, что проводится распознавание выборки объема и и принимается решение об исправности или неисправности автомата в зависимости от того, превышает ли количество ошибочно распознанных знаков порог 1 5 10- n.

Для того чтобы такая процедура обеспечивала достоверность принятого решения не ниже

0,95, объем выборки должен равняться около

80 млн.

Можно показать, что если вероятность ошибочного распознавания обычных знаков меняется в пределах 10 — — 2 10 —, то вероятность ошибочного распознавания граничных знаков изменяется в пределах 0„5 — 0,54. Процедура проверки автомата в этом случае заключается в распознавании выборки граничных знаков и сравнении процента ошибочно распознанных знаков с порогом 52 /о. Для обеспечения достоверности принятого об автомате решения не ниже 0,95 достаточен объем 6300 знаков.

Таким образом, из приведенных цифр видно, что требуемый объем выборки при предлагаемом способе значительно (более чем в

10000 раз) меньше, чем при известном. Технико-экономическую эффективность способа можно оценить следующем образом. Если читающий автомат считывает документы формата 210)(297, то на таком документе помещается около 2000 знаков. При предлагаемом способе нужно для проверки качества распознавания (для двух классов) подготовить

3 документа (страницы), а при известном—

40000 документов. При производительности

40 страниц в день для одной машинистки и машбюро в 10 человек для подготовки такой выборки необходимо 100 дней.

Формула изобретения

1. Способ контроля достоверности распознавания символов, основанный на формировании контрольной выборки изображений символов, отличающийся тем, что, с целью сокращения времени контроля, изображения символов контрольной выборки синтезируют совмещение изображений каждых двух символов из входного алфавита.

2. Способ контроля достоверности распознавания символов по п. 1, отличающийся тем, что в синтезированных изображениях символов контрольной выборки удаляют не533947

Составитель В. Киселев

Корректор T. Добровольская

Текред В. Рыбакова

Редактор И. Грузова

Заказ 237377 Изд. ¹ 1766 Тираж 864 Подписное

ЦНИИПИ Государственного комитета Совета Министров СССР по делам изобретений и открытий

113035, Москва, )К-35, Раушская наб., д. 4/5

Типография, пр. Сапунова, 2 совпадающие мсякду собой фрагменты изобрахкенпя символов входного алфавита.

Источники информации, принятые во внимание при экспертизе:

1. Бирман Н. Я. Статистические способы выделения признаков и оценка качества распознавания. Сб. «Лвтоматическое чтение текста», М., 1967, с. 30.

2. 5Клабис P. К вопросу контроля и оценки параметров читающих устройств. Сб. «Автоматизация ввода письменных знаков в

3ВМ». Материалы Всесоюзной конференции, Вильнюс. 1967, с. 57 (прототип).

Способ контроля достоверности распознавания символов Способ контроля достоверности распознавания символов Способ контроля достоверности распознавания символов 

 

Похожие патенты:

Изобретение относится к технике восприятия и обработки изображений

Изобретение относится к информатике и вычислительной технике и предназначено для получения, обработки, кодирования, передачи, хранения и восстановления информации

Изобретение относится к способам для считывания и распознавания напечатанных или написанных знаков, а более точно - к способу классификации ориентированных отпечатков пальцев

Изобретение относится к способам для считывания и распознавания напечатанных или написанных знаков, а более точно - к способу классификации ориентированных отпечатков пальцев

Изобретение относится к автоматике и вычислительной технике и может быть использовано в составе специализированных вычислительных систем обработки изображений, в частности изображений, описываемых смещенными прямоугольными растрами

Изобретение относится к автоматике и вычислительной технике и может быть использовано в составе специализированных вычислительных систем обработки изображений, в частности изображений, описываемых смещенными прямоугольными растрами
Изобретение относится к распознаванию и воспроизведению информации

Изобретение относится к печатной промышленности
Наверх