Групповой способ аби (abbyy) верификации компьютерных кодов с соответствующими им оригиналами

Авторы патента:

G06K9 - Способы и устройства для считывания и распознавания напечатанных или написанных знаков или распознавания образов, например отпечатков пальцев (обработка или анализ траекторий ядерных частиц G01T 5/02; проверка рисунков на бумажных деньгах или подобных ценных бумагах G07D 7/20; распознавание речи G10L 15/00)

Изобретение относится к вычислительной технике. Его использование при верификации компьютерных кодов с соответствующими им оригиналами позволяет повысить скорость верификации и ее точность. Способ включает в себя преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документов и приведение в соответствие компьютерных кодов с оригиналом. Технический результат достигается благодаря тому, что выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа известными способами, сравнения этих результатов между собой и с результатом словарного контроля, причем верификацию осуществляют над параллельно выведенными на устройство отображения визуальной информации несколькими графическими изображениями. 1 з.п.ф-лы.

Изобретение относится к области электроники и может быть использовано, например, в качестве группового способа верификации компьютерных кодов с соответствующими им оригиналами.

Известен способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и сличение оператором соответствия компьютерных кодов с оригиналом.

Известен также способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом, - прототип.

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе низкие значения достигаемых скорости верификации ее усредненной точности.

Решаемой изобретением задачей является совершенствование способов верификации компьютерных кодов с соответствующими им оригиналами с достижением технического результата в виде повышения скорости верификации и ее усредненной точности. Скорость верификации определяется как количество верифицируемых символов в единицу времени.

Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений, символов и/или терминов.

Исходное графическое изображение на материальном носителе - подлежащее вводу в компьютер изображение с целью последующей компьютерной обработки или хранения в машиночитаемом виде.

Графическое изображение, введенное в компьютер, - компьютерное представление некоторого фрагмента графической информации.

Компьютерный код символа - компьютерное представление некоторого фрагмента символьной информации.

Компьютерные коды символов получают в процессе компьютерного распознавания графического изображения, введенного в компьютер, например, с помощью сканера, или его фрагментов.

Процесс верификации - производимое человеком и/или заменяющим его устройством, и/или компьютерной программой сличение (определение адекватности) компьютерных кодов символов с графическим изображением, введенным в компьютер.

Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.

Точность процесса распознавания - усредненный процент правильно распознанных символов по статистически представительному практически релевантному множеству текстов.

Правильно распознанные символы - символы, компьютерный код которых правильно определен системой распознавания.

Неправильно распознанные символы - символы, компьютерный код которых неправильно определен системой распознавания.

Выделенные символы - символы, выделенные в процессе фильтрации для последующей верификации. В идеале выделенные символы должны включать все неправильно распознанные символы.

Цена ошибки - параметр, адекватный величине убытка, причиненного попаданием неправильно распознанного символа в окончательный результат распознавания.

Обозначения: N_исх - общее число символов в документе, N_выд - число символов, выделенное алгоритмом фильтрации, N_невыд - число символов, не выделенное алгоритмом фильтрации, N_пр - число правильно распознанных символов, N_непр - общее число неправильно распознанных символов, N_выд.пр - число выделенных правильно распознанных символов, N_{выд.непр.} - число выделенных неправильно распознанных символов, N_{невыд.пр.} - число невыделенных правильно распознанных символов, N_невыд_.непр - число невыделенных неправильно распознанных символов,
верхний индекс C (как в N^C) обозначает число символов, которые получили в процессе распознавания компьютерный код C,
A - точность распознавания данного документа,
A=N_пр/N_исх,
A_ср - усредненная точность распознавания данного документа:

где N - общее число документов в выборке, a i - номер документа в выборке,

где С - числовое значение компьютерного кода распознанного символа (порядковый номер), выбираемое из всего множества допустимых значений без исключений,
N_гр^C - количество сгруппированных для верификации одинаковых компьютерных кодов,
N_экр - количество графических изображений выводимых на экран одновременно (из общего количества N_гр^C).

В качестве кратких сведений, раскрывающих сущность изобретения, следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного группового способа АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами, включающего преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом. Отличительные особенности заявленного способа заключаются в том, что в процессе фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа различными известными способами, сравнения этих результатов между собой и с результатом словарного контроля и выбирая их из исходной последовательности компьютерных кодов символов общим числом N_исх, в количестве N_выд = F - aN_невыд._непр, где а - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах: 10^-12

10¹⁵, a F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах: 1

10¹⁶.

Затем после фильтрации группируют одинаково распознанные компьютерные коды общим числом N_выд таким образом, что в каждую группу включают N_выд^C одинаковых компьютерных кодов символов, где C - числовое значение верифицируемого компьютерного кода, выбираемое из всего множества допустимых значений, выбирая значение N_выд^C в пределах: 1

(N_выд^C + N_выд)/N_выд

2. При этом в каждую группу N_выд^C включают правильно распознанные компьютерные коды символов в количестве N_выд _пр^C и неправильно распознанные компьютерные коды символов в количестве N_выд _непр^C, а соотношение между N_выд _пр^C и N_выд _непр^C выбирают в пределах: -0.5

(N_выд _пр^C + N_выд _непр^C - bN_выд^C)/N_выд _пр^C

1.5, где b- экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах: 10^-9

1. Для верификации выбирают количество N_гр сгруппированных одинаковых компьютерных кодов в пределах N_гр=

N^С_в_ыд, где

-экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных и/или вспомогательных и/или информационных кодов выбираемый в пределах 10^-5

10⁶,

- экспериментальный вероятностный коэффициент уверенности в достоверности распознавания, выбираемый на основании статистической обработки и результатов оценки качества исходных графических изображений на материальном носителе, в пределах 0,01

1.
Группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке либо в порядке убывания весовой W^C значимости группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа и др., исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах: 10^-8

W^C/N_выд^C

10¹⁶. Производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят N_экр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток Т_вер времени, который по отношению к N_экр выбирают в экспериментально найденных пределах: -20

log₂(

T_верN_экр)

37, где

- экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0.2c^-1

10c^-1.
При изложении сведений, подтверждающих возможность осуществления изобретения, целесообразно более детально описать предложенный групповой способ АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами. При описании способа нецелесообразно детально останавливаться на известных из опубликованных данных особенностях выполнения его операций, в частности, преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом.

Детально целесообразно остановиться только на отличительных существенных особенностях осуществления операций предложенного способа, заключающихся в том, что в процессе фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа различными известными способами, сравнения этих результатов между собой и с результатом словарного контроля и выбирая их из исходной последовательности компьютерных кодов символов общим числом N_исх, в количестве N_выд= F-

N_{невыд.непр},, где a - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах: 10¹²

10¹⁶. Обычно а выбирают в диапазоне 1 - 10⁵, a F - в диапазоне 10

10⁶.

В некоторых случаях, в частности, словарный контроль существенно повышает достоверность распознавания отдельных символов, так при этом даже полная невозможность распознания некоторых символов позволяет определить их значение исходя из смыслового содержания слова и месторасположения нераспознанных символов в слове. Если в результате выделения в соответствии с приведенными аналитическими соотношениями необходимых количеств компьютерных кодов получают дробные, отрицательные значения и какие-либо другие значения, некорректные исходя из условий возможности их дальнейшего использования, то их исключают из рассмотрения и/или автоматически удаляют.

Затем группируют после фильтрации одинаково распознанные компьютерные коды общим числом N_выд таким образом, что в каждую группу включают N_выд^C одинаковых компьютерных кодов символов, где C - числовое значение верифицируемого компьютерного кода из всего множества допустимых значений, выбирая значение N_выд^C в пределах: 1

(N_выд^C + N_выд)/N_выд

2. Определение числового значения C может быть произвольным или в результате, например, последовательно выбора из множества его допустимых значений. При этом в каждую группу N_выд^C включают правильно распознанные компьютерные коды символов в количестве N_выд _пр^C и неправильно распознанные компьютерные коды символов в количестве N_выд _непр^C, а соотношение между N_выд _пр^C и N_выд _непр^C выбирают в пределах: -0.5

(N_выд _пр^C + N_выд _непр^C - bN_выд^C)/N_выд _пр^C

1.5, где b - экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах: 10^-9

1. Для верификации выбирают количество N_гр сгруппированных одинаковых компьютерных кодов в пределах: N_гр=

N^C_в_ыд, где

- экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных и/или вспомогательных и/или информационных кодов выбираемый в пределах 10^-5

10⁶,

1. Качество исходных графических изображений определяется, в частности, тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст.

Группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке либо в порядке убывания весовой W^C значимости группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа и др., исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах: 10^-8

W^C/N_выд^C

log₂(

T_верN_экр)

37, где

10^-1. Как следует из соотношения, размерность коэффициента

равна величине, обратной секунде.

Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их неочевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию "промышленная применимость" предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата.

Кроме указанного выше технического результата практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами.

Формула изобретения

1. Групповой способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом, отличающийся тем, что выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа известными способами, сравнения этих результатов между собой и с результатом словарного контроля и, выбирая их из исходной последовательности компьютерных кодов общим числом N_исх, в количестве N_выд = F - aN_невыд_.непр, где a - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах 10^-12

10¹⁵, F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах 1

10¹⁶, N_невыд._непр - число невыделенных неправильно распознанных символов, группируют одинаково распознанные компьютерные коды общим числом N_выд таким образом, что в каждую группу включают N_выд^C одинаковых компьютерных кодов, где C - числовое значение верифицируемого компьютерного кода из всего множества допустимых значений, выбирая значение N_выд^C в пределах 1

(N_выд^C + N_выд)/N_выд

2, причем в каждую группу N_выд^C включают правильно распознанные компьютерные коды символов в количестве N_выд.пр^C и неправильно распознанные компьютерные коды в количестве N_{выд.непр}^C, а соотношение между N_выд.пр^C и N_{выд.непр}^C выбирают в следующих пределах: 0,5

(N_выд.пр^C + N_выд._непр^C - bN_выд)/N_выд.пр^C

1,5, где b - экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах 10^-9

1, выбирая количество N_гр сгруппированных для верификации одинаковых компьютерных кодов в пределах N_гр =

N^C_в_ыд, где

- экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных, и/или вспомогательных, и/или информационных кодов, выбираемый в пределах 10^-5

10⁶,

1, группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке, производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят N_экр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток T_вер времени, который по отношению к N_экр выбирают в экспериментально найденных пределах: -20

log₂(

T_верN_экр)

37, где

- экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0,2c^-1

10c^-1.
2. Способ по п.1, отличающийся тем, что группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором в порядке убывания весовой значимости W^С группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка, и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа, исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах 10^-8

W^С/N_выд^C

10¹⁶.

MM4A - Досрочное прекращение действия патента СССР или патента Российской Федерации на изобретение из-за неуплаты в установленный срок пошлины за поддержание патента в силе

Дата прекращения действия патента: 11.08.2007

Извещение опубликовано: 27.09.2008 БИ: 27/2008

TE4A Изменение адреса для переписки

Адрес для переписки:
123100, Москва, Шмитовский пр., 2, стр. 2, Агентство «Ермакова, Столярова и Партнеры»

Дата публикации: 27.04.2012

Изобретение относится к факсимильной технике и может быть использовано, в частности, для факсимильного воспроизведения собственноручной подписи и/или печати с помощью средств механического или иного копирования, например в коммерческой, банковской и других сферах деятельности

Устройство для обработки изображений и способ определения линейного сдвига изображения // 2138851

Изобретение относится к вычислительной технике

Способ анализа векторов движения деталей в динамических изображениях // 2137194

Изобретение относится к видеоинформационной технике и может найти применение при разработке цифровых кодирующих устройств для видеотелефонии, видеоконференцсвязи, телевизионного цифрового вещания стандартной и высокой четкости

Способ идентификации владельца многоразового финансового документа при работе с ним // 2134449

Изобретение относится к работе с многоразовыми финансовыми документами

Способ многоканальной экспресс-диагностики // 2133970

Изобретение относится к автоматике и вычислительной технике для диагностики состояния объекта по результатам преобразования детерминированных и случайных сигналов и может быть использовано в телеметрических системах с эвакуируемыми накопителями информации ("черный ящик") и радиоканалом для передачи катастрофических отказов

Способ и устройство распознавания классов сигналов // 2133501

Устройство поиска информации // 2133500

Изобретение относится к электросвязи и может быть использовано для поиска информации, идентификации и контроля корректности применяемого в цифровых системах связи коммуникационного протокола

Способ идентификации подлинности контролируемого объекта // 2132569

Изобретение относится к способам идентификации подлинности контролируемых объектов и может найти применение при индентификации подакцизных товаров (алкоголя, табака, видеопродукции), проездных и льготных документов на транспорте, подлинности документов, удостоверяющих личность, и т.д

Способ адаптивной автоматической сегментации и распознавания клеток на изображениях цитологических препаратов // 2132061

Изобретение относится к области медицины и предназначено для обработки изображений цитологических препаратов

Преобразователь изображения // 2130631

Изобретение относится к области оптоэлектроники и может найти применение в устройствах обработки оптической информации

Способ идентификации личности по особенностям подписи // 2148274

Изобретение относится к вычислительной технике и предназначено для ограничения доступа к информации путем биометрической идентификации личности по индивидуальным особенностям почерка, выявляемым при воспроизведении пользователем заранее известной парольной фразы или подписи

Способ идентификации личности по особенностям подписи // 2148274

Способ автоматической сегментации полутонового изображения по форме яркостной гистограммы // 2148858

Изобретение относится к цифровой обработке изображений

Способ обработки изображения // 2150146

Изобретение относится к вычислительной технике

Дактилоскопическая система идентификации изображения // 2154301

Изобретение относится к вычислительной технике

Устройство для распознавания образов // 2154302

Изобретение относится к оптическим устройствам распознавания образов

Способ получения изображения развертки поверхности деформированных цилиндрических объектов // 2155378

Изобретение относится к телевизионной микроскопии и может быть использовано в промышленности при автоматизации контроля качества и, особенно, криминалистике для проведения баллистических экспертиз пуль стрелкового оружия, а также создания и хранения банка данных пулетек для последующей идентификации оружия по следам на пулях

Устройство для классификации сигналов // 2155987

Изобретение относится к автоматике, вычислительной технике и может быть использовано для распознавания и классификации сигналов, для диагностики и контроля технического состояния элементов и узлов электронной техники

Способ изготовления информационной карточки, предназначенной для закрепления на удостоверении личности, и информационная карточка // 2156699

Способ определения подлинности и достоинства банкнот и машина сортировки банкнот барс // 2158443

Изобретение относится к способам и устройствам для сортировки и проверки подлинности банкнот и предназначено для использования в банках