Способ обработки выходных данных оптического распознавания символов (ocr), где выходные данные содержат изображения дважды отпечатанных символов

Изобретение относится к способам оптического распознавания символов и может быть использовано для обработки выходных данных из системы оптического распознавания изображений (OCR), где выходные данные включают изображения дважды отпечатанных символов. Технический результат заключается в распознавании дважды отпечатанных символов. Способ идентифицирует соответствующие члены изображения с подозрением на дважды отпечатанные символы, в первую очередь, предусматривая набор эталонных изображений единичных символов из изображений символов, идентифицированных в тексте, который обрабатывается системой OCR, а затем комбинирования эталонов единичных символов, для обеспечения модели кандидатов для изображения с подозрением на дважды отпечатанные символы. Корреляция между каждой соответствующей моделью кандидата и изображения с подозрением на дважды отпечатанные символы обеспечивает указание на то, какая из пар модельных эталонных изображений единичных символов с наибольшей вероятностью является правильной идентификацией соответствующих изображений символов на изображении с дважды отпечатанными символами. 4 з.п. ф-лы, 4 ил., 1 табл.

 

Настоящее изобретение относится к разрешению противоречивых выходных данных из системы оптического распознавания символов (OCR) и, в особенности, к способу обработки выходных данных OCR, где выходные данные включают изображения символов, нераспознаваемые по причине двойного отпечатка, по меньшей мере, двух образцов символов, наложенных друг на друга.

Системы оптического распознавания символов обеспечивают преобразование растрированных изображений документов в текст в кодах ASCII, что облегчает поиск, замену и переформатирование документов и т.д. в компьютерной системе. Одной из особенностей функциональности OCR является преобразование рукописных и машинописных документов, книг, медицинских журналов и т.д., например, в документы, доступные для поиска в сетях Интернет и Интранет. В целом, качество извлечения информации и поиска документов значительно улучшается в том случае, когда все документы доступны для электронного извлечения и поиска. Например, корпоративная система Интранет может связывать все старые и новые документы предприятия путем всестороннего применения функциональности OCR, являющейся частью сети Интранет (или частью сети Интернет в случае документов, представляющих общественный интерес).

Однако качество функциональности OCR ограничено большой сложностью самой системы OCR. Трудно обеспечить функциональность OCR, которая способна преодолеть любые трудности, встречающиеся при попытках преобразования изображений текста в текст в компьютерных кодах. Одна из таких трудностей связана с отпечатыванием, по меньшей мере, двух символов один поверх другого или со сдвигом между ними, что встречается в документах, отпечатанных на пишущих машинках. Печатающие рычаги, печатающие колеса или другие аналогичные механизмы пишущих машинок могут иметь механические дефекты, которые приводят к разрегулировке, при которой рычаги, печатающее колесо, бумага и т.д. сдвигается в новое положение, приводя к перемещению вдоль строки текста, которое слишком мало в сравнении с фактической шириной символа и, в результате, к смещенному отпечатыванию символов в текстовой строке.

Влияние таких дважды отпечатанных символов заключается в неспособности системы OCR распознавать соответствующие изображения символов для дважды отпечатанных символов и преобразовывать их для коррекции символов, например, в кодах ASCII. Обычно системы OCR предусматривают выходные данные, которые включают перечень недостоверно распознаваемых символов с указанием степени недостоверности, или достоверности, с которой распознаются соответствующие символы. Эти величины, как известно специалистам в данной области, иногда называются оценочными значениями. Таким образом, идентифицируются изображения дважды отпечатанных символов, а также их местоположение на текстовой странице, в словах и т.д. Однако соответствующие нераспознаваемые изображения дважды отпечатанных символов необходимо отличать от нераспознаваемых изображений одиночных символов.

Согласно одной из особенностей настоящего изобретения, нераспознаваемые изображения дважды отпечатанных символов будут иметь оценочное значение, которое значительно отличается от значения для любого другого нераспознаваемого одиночного символа. Причина заключается в том, что изображение дважды отпечатанных символов действительно не представляет собой изображение единичного символа, которое способна идентифицировать система OCR. Поэтому результирующее оценочное значение будет низким. Изображение единичного символа, даже сообщаемое как нераспознаваемое, наиболее вероятно, имеет некоторое сходство с образцом символа. Поэтому оценочное значение будет выше, чем для нераспознаваемых отпечатков двойных символов.

Согласно еще одной из особенностей настоящего изобретения символы с фиксированным расстоянием между символами предоставляют меру ширины символа, например, как фиксированное количество пикселей вдоль направления текстовой строки. Поэтому количество пикселей на изображении с подозрением на дважды отпечатанные символы, которое не является целым кратным по отношению к данному количеству пикселей, указывает на изображение дважды отпечатанных символов.

В пределах объема настоящего изобретения находится использование любого из описанных здесь способов обнаружения изображений дважды отпечатанных символов.

Согласно одному из примеров осуществления настоящего изобретения, из изображений символов, взятых из того же документа и идентифицированных системой OCR как имеющие качество изображения, которое превышает заранее определенный уровень, создается набор эталонных изображений. Эти эталонные изображения затем одно за другим используются в способе скользящего изображения, где эталонное изображение перемещается по изображению с подозрением на дважды отпечатанные символы. Изображение с подозрением на дважды отпечатанные символы ограничено ограничивающим прямоугольником, который окружает изображение, а перемещение происходит внутри указанного ограничивающего прямоугольника и является пошаговым, например один пиксель за один шаг. Для каждого шага перемещения осуществляется корреляция. Корреляция предоставляет данные двух типов: величину корреляции и упорядоченный набор чисел, отражающих смещение, или сдвиг, между соответствующими телами изображений относительно ограничивающего прямоугольника. Эталонные изображения с локальными максимальными значениями корреляции комбинируются по сходству с изображением с подозрением на дважды отпечатанные символы, образуя набор изображений-кандидатов. Данное выравнивание возможно при условии, что корреляция также обеспечивает смещение, или сдвиг, между изображениями. Затем соответствующие изображения-кандидаты коррелируют с фактическим изображением двойного отпечатка. Идентифицированная таким образом максимальная корреляция указывает пару комбинированных эталонных изображений, которые, в значительной степени, эквивалентны изображению с подозрением на двойной отпечаток. Затем комбинированное эталонное изображение обеспечивает идентификацию соответствующих символов, заключенных в изображении с подозрением на дважды отпечатанные символы.

Согласно одному из вариантов осуществления настоящего изобретения, способ комбинирования эталонных изображений включает идентификацию вкладов в комбинированные изображения от каждого соответствующего эталонного изображения, ограниченного соответствующими ограничивающими прямоугольниками. Для идентификации соответствующих вкладов существует множество возможных решений. Например, если область комбинированного изображения получает значения пикселей только из одного из эталонных изображений, в этой области используются только пиксели из соответствующего эталонного изображения. Если оба изображения вносят вклад в область, в область вносится вклад изображения, включающего самые темные значения пикселей (в кодах уровней серого).

Согласно еще одной особенности настоящего изобретения, эталонные изображения могут улучшать выполнение настоящего изобретения в том случае, если изображения символов группируются в классы символов. Например, система OCR может сообщать множество образцов изображений одного и того же символа как безусловно распознаваемые с превышением заданного порогового уровня. Все подобные изображения одного и того же символа затем складываются путем сложения уровней серого каждого соответствующего пикселя изображения после выравнивания тел изображений символа и взвешивания суммы по количеству слагаемых изображений. Данная особенность настоящего изобретения улучшает графическое качество соответствующих изображений эталонных символов, во-первых, поскольку они являются изображениями реальных изображений, встречающихся в документе, и во-вторых, благодаря усреднению компонент шума путем сложения и взвешивания значений пикселей способами, известными специалистам в данной области.

Фиг.1 - пример текста, отпечатанного на пишущей машинке, который включает изображения дважды отпечатанных символов.

Фиг.2 - набор эталонных изображений символов, созданный из изображений символов, распознаваемых в тексте, изображенном на фиг.1, и имеющих оценочное значение, которое превышает определенное значение.

Фиг.3 - пример ограничивающего прямоугольника, включающего изображения дважды отпечатанных символов из текста, изображенного на фиг.1.

Фиг.4 - эталонное изображение, соответственно, символов h и е, выровненных поверх изображения по фиг.3.

На фиг.1 показано, каким образом дважды отпечатанные символы могут встречаться в тексте, напечатанном на пишущей машинке. В примере, используемом в данном раскрытии для иллюстрации способа идентификации согласно настоящему изобретению, используется изображение дважды отпечатанных символов h и е. На фиг.2 показан созданный набор эталонных изображений, который включает изображения символов, распознаваемых системой OCR и имеющих качество изображения, превышающее определенный уровень, например, имеющих оценочное значение выше заранее определенного уровня. Данные эталонные изображения затем одно за другим используются в способе сопоставления с ограниченным изображением изображения с подозрением на дважды отпечатанные символы, например символы h и е (фиг.3). Ограничивающий прямоугольник предусматривается вокруг отпечатка с подозрением на дважды отпечатанные символы из положения на странице, где идентифицировано данное изображение с подозрением на дважды отпечатанные символы. Каждое соответствующее эталонное изображение перемещается как скользящее изображение по изображению в ограничивающем прямоугольнике (фиг.3). Перемещение может осуществляться, например, с шагом в один пиксель. Для каждого шага вычисляется и записывается значение корреляции. Также корреляция предоставляет информацию о смещении, или сдвиге, между телами изображений символов на соответствующих сопоставляемых изображениях. Значения смещения можно рассматривать как количественную меру выравнивания в направлениях x и y, что является необходимым при попытке расположения тел двух символов одно поверх другого так, чтобы тела символов в максимально возможной степени покрывали друг друга. Значения координат x и y могут быть относительными и указывать на перемещение, соответственно, вверх-вниз и влево-вправо относительно ограничивающего прямоугольника, а знак указывает на направление перемещения. Значения смещения также записываются вместе со значениями корреляции, рассчитанными на каждом шаге. В таблице I показан пример рассчитанных значений для локальной максимальной корреляции и соответствующих значений смещения (сдвига) для эталонных изображений единичного символа по фиг.2, перемещаемого вдоль изображения с подозрением на дважды отпечатанные символы по фиг.3.

Таблица I
Символ Параллельность Сдвиг
′а′ 0,9276 [-2, -1]
'а′ 0,9292 [-2, 11]
′b′ 0,9564 [0, -4]
′с′ 0,9605 [0, 1]
′с′ 0,9596 [-1, 13]
′е′ 0,9329 [0, -2]
′е′ 0,9634 [-1, 11]
′h′ 0,9749 [-1, -2]
′i′ 0,9105 [-1, -11]
′k′ 0,9105 [-2, -2]
′l′ 0,9079 [1, -10]
′n′ 0,9657 [0, -3]
′n′ 0,9269 [-1, 9]
′o′ 0,9519 [1, -2]
′o′ 0,9399 [0, 10]
′p′ 0,9032 [-2, -2]
′p′ 0,9049 [-2, 11]
′r′ 0,9639 [-1, -7]
′r′ 0,9466 [-1, 7]
′s′ 0,9336 [-1, -2]
′s′ 0,9505 [-2, 11]
′t′ 0,9261 [1, -6]
′u′ 0,9660 [-1, -1]
′u′ 0,9020 [-1, 11]

Как видно из таблицы, скользящее перемещение эталонного изображения может предусматривать, например, два локальных максимальных значения корреляции. Это связано с тем, что на изображении дважды отпечатанных символов находится более одного символа, а эталонное изображение можно поместить в положение, перекрывающееся с локальным максимумом, по меньшей мере, в двух положениях, соответствующих двум символам, которые присутствуют на изображении дважды отпечатанных символов. Согласно варианту осуществления настоящего изобретения, в качестве кандидатов, представляющих изображение с подозрением на дважды отпечатанные символы, комбинируются все сочетания эталонов единичных символов и идентифицированных значений их смещений. Затем каждое соответствующее эталонное изображение единичного символа по одному коррелируют с изображением с подозрением на дважды отпечатанные символы. На фиг.2 показан пример эталонных изображений, используемых для исследования изображения с подозрением на дважды отпечатанные символы по фиг.3 и обеспечивающих максимальную корреляцию комбинированного эталона h и е (фиг.4). Таким образом, осуществляется идентификация символов на фиг.3. Согласно другому варианту осуществления настоящего изобретения, при комбинировании изображений используются только эталонные изображения со значением корреляции, превышающим заранее определенный пороговый уровень.

Способ комбинирования изображений согласно настоящему изобретению включает идентификацию на каждом эталонном изображении областей, вносящих вклад в комбинированное изображение. Например, комбинированное изображение двух смещенных эталонных изображений с соответствующими ограничивающими прямоугольниками будет иметь 4 различных типа областей: области с вкладом только от первого эталонного ограничивающего прямоугольника, области с вкладом только от второго ограничивающего прямоугольника, области с вкладами от обоих ограничивающих прямоугольников и, если изображение прямоугольно, области, не содержащие вкладов ни от одного из ограничивающих прямоугольников. Там, где присутствует вклад только от одного из эталонов, для комбинированного изображения выбирается значение пикселя из соответствующего эталона. Там, где присутствуют вклады от обоих эталонов, выбирается наиболее темное значение пикселя (в кодах уровня серого) из двух эталонов. Областям, не содержащим вкладов ни от одного эталона, присваивается значение соответствующего фонового уровня.

Математические операции корреляции осуществляются аналогично известным прототипам. Однако авторы настоящего изобретения обнаружили, что степень параллельности (степень параллельности в n-мерном пространстве) между значениями «включенных» пикселей, заключенных в теле изображения с подозрением на дважды отпечатанные символы, и соответствующими значениями «включенных» пикселей на модельном теле эталонного изображении при выравнивании обеспечивает улучшенную степень равенства соответствующих изображений. В одном из вариантов осуществления изобретения степень определяется как

где pk - сдвиги «включенных» пикселей на изображении с подозрением на дважды отпечатанные символы, - сдвиг незатронутых «включенных» пикселей в комбинированном модельном эталонном изображении после выравнивания.

Согласно другой особенности настоящего изобретения, эталонные изображения можно идентифицировать как изображения символов, имеющие качество выше заранее определенного уровня, и/или как суперпозицию нескольких изображений, представляющих один и тот же символ, одно поверх другого, которая обозначается как класс символа.

Согласно варианту осуществления настоящего изобретения, для создания классов символов осуществляются следующие стадии:

I. случайный выбор трех образцов класса, корреляция всех комбинаций этих трех образцов, а затем выбор пары коррелированных образцов, имеющей корреляцию, которая превышает заранее определенный пороговый уровень, в качестве исходного пункта для эталона класса данного символа;

II. если ни одна из комбинаций пар, выбранных на стадии I, не обладает корреляцией, превышающей пороговый уровень, - выбор других образцов из класса до получения пары, имеющей корреляцию, которая превышает заранее заданный пороговый уровень;

III. если ни одна из пар образцов, выбранных на стадии II, не имеет корреляции, которая превышает заранее заданный пороговый уровень, данный класс исключается из дальнейшего использования;

IV. для исходной пары, идентифицированной на стадии I или II, - корреляция изображений пары и идентификация смещения между ними перед генерированием из изображений выровненного суммарного эталонного изображения из изображений, которые используются в качестве исходных эталонных изображений для класса соответствующего символа;

V. для всех остальных образцов в классе - их корреляция с суммарным эталоном (стадия IV) для идентификации смещения между ними и, если корреляция превышает заранее определенный порог, выравнивание изображений перед их сложением с суммарным изображением (стадия IV);

VI. если некоторые выровненные изображения, используемые на стадии V, включают части, выходящие за пределы исходного эталона (стадия IV) - расширение суммарного эталона до нахождения всех образцов внутри ограничивающего прямоугольника, определяемого размером медианы ограничивающих прямоугольников подмножества изображений, представляющего большинство изображений.

Согласно другому варианту осуществления настоящего изобретения, накопление выровненных изображений в эталон для класса, представляющего символ, также включает сложение соответствующих значений уровня серого пикселей из соответствующих местоположений на выровненных изображениях так, чтобы каждое значение уровня серого пикселя перед выполнением сложения взвешивалось по величине, обратной количеству выровненных изображений, накопленных на текущий момент в эталонном изображении для класса.

В некоторых случаях, в наборе эталонов, или классе, согласно настоящему изобретению некоторые изображения символов могут быть пропущены. Это может приводить к ситуации, когда пропущено, например, эталонное изображение. Такие ситуации могут возникать, например, тогда, когда символ действительно редко используется в языке документа. Например, в норвежском языке символ с является редко используемым в отличие от других языков, где с - наиболее часто используемый символ. Типичной ошибочной альтернативой символу с является символ е. Разумно предположить, что для символа е эталон будет присутствовать, а для символа с - вероятно, нет. Если идентифицирован пропуск символа с, можно предусмотреть синтетическое эталонное изображение на основе уже существующего эталонного изображения символа, который имеет сходство с пропущенным эталонным изображением. Тогда некоторые графические признаки символов, встречающихся в документе, который обрабатываются системой OCR, будут являться частью синтезированного эталонного изображения.

1. Способ для разрешения противоречивых выходных данных из системы оптического распознавания символов (OCR), где выходные данные включают, по меньшей мере, одно изображение с подозрением на дважды отпечатанные символы, где способ включает этапы, на которых:
а) производят поиск по выходным данным для идентификации изображений символов, обладающих качеством изображения, которое превышает заранее определенный уровень, и используют эти изображения символов в качестве набора эталонных изображений единичных символов;
б) обеспечивают ограничивающий прямоугольник вокруг изображения с подозрением на дважды отпечатанные символы, осуществляют корреляцию между каждым соответствующим единичным эталонным изображением по отдельности и изображением с подозрением на дважды отпечатанные символы посредством скользящего изображения единичного символа, записывают значения корреляции и соответствующие значения смещения для соответствующих тел изображений символов на каждом шаге перемещения, осуществляемого при выполнении способа корреляции скользящего единичного символа;
в) выбирают единичные эталонные изображения, имеющие значения корреляции выше заранее определенного порогового уровня, для создания перечня кандидатов из числа комбинированных эталонных изображений единичных символов, выровненных относительно друг друга в соответствии со значениями их смещения относительно ограничивающего прямоугольника;
г) коррелируют каждый соответствующий кандидат из числа комбинированных эталонных изображений единичных символов с изображением с подозрением на дважды отпечатанные символы и выбирают комбинированное эталонное изображение единичных символов, имеющее наибольшее значение корреляции, в качестве идентификации каждого соответствующего изображения символа на изображении с подозрением на дважды отпечатанные символы.

2. Способ по п.1, отличающийся тем, что корреляцию между соответствующими комбинированными эталонными изображениями единичных символов и изображениями с подозрением на дважды отпечатанные символы осуществляют путем вычисления степени равенства как:

где pk - выровненные «включенные» пиксели на изображении с подозрением на дважды отпечатанные тела символов, - выровненные «включенные» пиксели на комбинированном изображении эталонных единичных тел.

3. Способ по п.1, отличающийся тем, что стадия обеспечения набора эталонов включает сортировку всех сообщаемых идентифицированных символов, превышающих пороговый уровень, в классы, где каждый класс представляет один и тот же идентифицированный символ в эталонном наборе, а затем выполнение стадий обеспечения изображений для каждого символа, или класса, в эталонном наборе путем:
I. случайного выбора трех образцов в классе, корреляции всех комбинаций этих трех образцов, а затем выбора пары коррелированных образцов, обладающей корреляцией, которая превышает заранее определенный пороговый уровень, в качестве исходного пункта для эталона класса данного символа;
II. если ни одна из комбинаций пар, выбранных на стадии I, не обладает корреляцией, превышающей пороговый уровень, - выбора других образцов из класса до получения пары, имеющей корреляцию, которая превышает заранее определенный пороговый уровень;
III. если ни одна из пар образцов, выбранных на стадии II, не имеет корреляции, которая превышает заранее заданный пороговый уровень, - исключения данного класса из дальнейшего использования;
IV. для исходной пары, идентифицированной на стадии I или II, - корреляции изображений пары, идентифицирующей смещение между ними, затем генерирования из изображений выровненного суммарного эталонного изображения из изображений, которые используются в качестве исходных эталонных изображений для класса соответствующего символа;
V. для всех остальных образцов в классе - их корреляции с суммарным эталоном на стадии IV для идентификации смещения между ними и, если корреляция превышает заранее определенный порог, выравнивания изображений перед их сложением с суммарным изображением на стадии IV;
VI. если некоторые выровненные изображения, используемые на стадии V, включают части, выходящие за пределы исходного эталона на стадии IV - расширения суммарного эталона после использования всех образцов.

4. Способ по п.3, отличающийся тем, что накопление выровненных изображений в эталоне класса, представляющего символ, также включает сложение соответствующих значений уровней серых пикселей из соответствующих местоположений на выровненных изображениях так, чтобы каждое значение уровня серого пикселя перед выполнением сложения взвешивалось по обратной величине от количества выровненных изображений, накопленных на текущий момент в эталонном изображении для класса.

5. Способ по п.3, отличающийся тем, что в ситуации, когда класс символа пропущен по причине пропуска изображений идентифицированного символа в документе, обрабатываемом системой OCR, пропущенный эталонный класс синтезируется из другого существующего эталонного класса, имеющего сходство с пропущенным эталонным классом.



 

Похожие патенты:

Изобретение относится к способам распознавания объектов в системах машинного зрения, телевизионных системах наблюдения, информационно-управляющих системах робототехнических комплексов.
Изобретение относится к технике защиты врачебной тайны при ведении обезличенных электронных историй болезни. .

Изобретение относится к области гидрологии и связано с определением толщины ледяного покрова замерзающих акваторий по данным дистанционных средств измерений, устанавливаемых на метеорологических искусственных спутниках Земли.

Изобретение относится к автоматике и цифровой вычислительной технике. .

Изобретение относится к области оптического распознавания символов, а именно к способам распознавания текстовых документов, содержащих фрагменты, написанные на разных языках, из растрового изображения.

Изобретение относится к области оптического распознавания текста из растрового изображения. .

Изобретение относится к области специализированных устройств вычислительной техники и может быть использовано для распознавания объектов, когда эталонные и наблюдаемые двумерные изображения заданы в виде нечетких множеств.

Изобретение относится к области распознавания и сегментации изображений, и в частности к способу и системе для выделения целевого объекта из фонового изображения и изображения объекта путем создания маски, используемой для выделения целевого объекта.

Изобретение относится к области цифровой фотографии. .

Изобретение относится к устройству и способу для распознавания жестов в динамике из последовательности стереокадров. .

Изобретение относится к перу для записи выбранной последовательности символов и к способу осуществления такой записи. .
Изобретение относится к вычислительной технике. .

Изобретение относится к средствам цифровой обработки изображений

Изобретение относится к способу для разрешения противоречивых выходных данных из системы оптического распознавания символов (OCR)

Изобретение относится к области получения фото- и видеоизображений, в частности, с помощью мобильных устройств со встроенными фото- и видеокамерами и может быть использовано, например, для улучшения качества результирующего изображения, полученного из нескольких исходных снимков

Изобретение относится к средствам обработки цифровых изображений. Техническим результатом является повышение точности выделения границ сложноструктурируемых изображений за счет формирования множества фильтрованных по направлению изображений из исходного полутонового изображения путем локальной обработки составным морфологическим оператором. В способе указанный оператор формируют из линейных структурообразующих элементов с различными параметрами ориентации относительно растра изображения равной длины, каждое фильтрованное изображение получают взаимодействием линейного структурообразующего элемента составного морфологического оператора с исходным изображением, яркости пикселей в фильтрованном изображении получают посредством выполнения для каждого пикселя исходного изображения трех морфологических операций взаимодействия исходного изображения с линейным структурообразующим элементом. 6 ил.
Наверх