Способ распознавания контента сжатых неподвижных графических сообщений в формате jpeg

Изобретение относится к области распознавания данных. Технический результат − сокращение времени обработки сжатого НГС в формате JPEG за счет уменьшения количества операций и обеспечение правильного распознавания контента. Способ распознавания сжатого неподвижного графического сообщения основан на последовательности операций, в результате которых декодируют файл формата JPEG до процедуры деквантования, формируют массив значений коэффициентов ДКП цветовой компоненты Y, вычисляют центральные моменты из распределения этих коэффициентов, формируют собственный характеристический вектор признаков, нормируют их значения, затем используют их в линейном прогностическом правиле и принимают решение о принадлежности сжатого НГС в формате JPEG к одному из распознаваемых классов. 4 ил., 1 табл.

 

Изобретение относится к области распознавания данных и может быть использовано для предварительной обработки и распознавания контента сжатых неподвижных графических сообщений (НГС) в формате JPEG при решении задач анализа больших объемов мультимедийной информации.

Для удобства описания способа распознавания контента сжатых НГС в формате JPEG введем ряд определений.

Под сжатыми НГС в формате JPEG понимаются неподвижные цифровые изображения, сжатые в соответствии со спецификацией JFIF и представленные в виде файлов формата JPEG – стандарт сжатия цифрового изображения, определенный в ИСО/МЭК 10918-1 [ГОСТ Р ИСО/МЭК 19794-5–2013]. Для сжатия контента НГС в формате JPEG (цифровых изображений в формате JPEG) последовательно выполняются три основные операции: дискретное косинусное преобразование (ДКП, Discrete Cosine Transform), округление (квантование, Quntization) коэффициентов ДКП и их последующее энтропийное кодирование (кодами RLE и Хаффмана) [ИСО/МЭК 10918-1].

Под контентом сжатых НГС в формате JPEG в предлагаемом изобретении понимается содержательная часть сообщений, сведений [ГОСТ Р 43.0.7–2011].

Цифровое изображение – матрица из пикселей, организованной в формате строк и колонок. Цифровое изображение с составляющими М на N шкалы уровней серого или цветовых значений состоит из пикселей [ГОСТ Р ИСО/МЭК 19794-9–2009].

Пиксель – наименьший элемент поверхности визуализации, которому может быть независимым образом заданы цвет, интенсивность и другие характеристики изображения [ГОСТ 27459-87 Системы обработки информации. Машинная графика. Термины и определения – С. 3].

Цветовая модель RGB – аддитивная цветовая модель, как правило, описывающая способ синтеза цвета для цветовоспроизведения (Синтез цвета // Фотокинотехника: Энциклопедия / Главный редактор Е. А. Иофис. – М. : Советская энциклопедия, 1981. – 274 с.).

Растровая графика – область машинной графики, в которой изображения генерируются из массива пикселей, упорядоченных по строкам и столбцам [ГОСТ 27459-87 Системы обработки информации. Машинная графика. Термины и определения – С. 2].

Для решения задачи распознавания контента сжатых НГС в формате JPEG в разных способах могут применятся различные варианты их представления: растровая графика, векторная графика, фрактальная графика и их комбинации.

Известен способ распознавания текстовой информации из векторно-растрового изображения (патент RU № 2309456 от 27.10.2007), который включает в себя следующие этапы: разбиение изображения до получения областей (фрагментов), содержащих неразрывный логически связанный текст наибольшего размера; разбиение на области, предположительно содержащие текст для последующего анализа соседних областей на возможность их объединения в более крупные фрагменты, разбиение текстовых объектов на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неидентифицируемых символов; анализ и составление (объединение, сборка) групп символов в строки, разбиение на отдельные символы и группы символов для последующего преобразования абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками; обработку и анализ растровых объектов для выявления изображения текста в нетекстовых объектах, анализ для выявления векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ распознавания контентного содержания сообщений графических форматов (патент RU № 2479028 от 10.04.2013), заключающийся в том, что для решения задачи распознавания контента сжатых НГС формата JPEG, на первом этапе: определяют объем растра изображения, содержащегося в НГС, и отсеивают сообщения, принадлежащие к элементам Web-дизайна (баннеры); декодируют принятый графический файл в сообщение графического формата цветовой схемы RGB; преобразуют сообщение графического формата в двумерный массив элементов, описывающий структуру растра изображения; определяют объем растра изображения и полученное значение объема растра сравнивают с пороговым значением и отсеивают сообщения, принадлежащие к элементам Web-дизайна; на втором этапе: оценивают значение признаков, характеризующих энтропию сообщений графических форматов и принимают решение о контенте цифрового изображения содержании сообщения; рассчитывают значение результирующего информативного признака характеризующего контент НГС, при этом для вычисления результирующего информативного признака при распознавании контента НГС предлагается многоуровневая схема преобразований структурных признаков объекта с целью получения значений, характеризующих энтропию НГС; сравнивают полученное значение информативного признака с пороговыми значениями и принимают решение о типе контента анализируемого сжатого НГС.

Технической проблемой данных аналога и прототипа является высокая длительность обработки (низкая эффективность) каждого сжатого НГС в формате JPEG в связи с необходимостью выполнения всех процедур преобразования сжатого НГС в формате JPEG в цветовую схему RGB для получения растра цифрового изображения; а также низкая вероятность правильного распознавания контента сжатого НГС из-за использование одного информативного признака.

Для решения технической проблемы предлагается способ распознавания контента сжатых НГС в формате JPEG, позволяющий сократить время (повысить эффективность) обработки каждого сжатого НГС в формате JPEG за счет уменьшения количества операций по обработке сжатого НГС в формате JPEG путем исключения процедур деквантования значений массивов коэффициентов и последующего их преобразования в цветовую схему RGB, а также повысить вероятность правильного распознавания контента сжатого НГС за счет использования нескольких информативных признаков.

В заявленном способе эта задача решается тем, что на основе анализа служебной части файла формата JPEG определяют объем его растра, декодируют информационную часть файла формата JPEG по Хаффману, формируют двумерный массив значений коэффициентов дискретного косинусного преобразования цветовой компоненты Y, дополнительно формируют обучающую выборку для двух классов сжатых неподвижных графических сообщений в формате JPEG в зависимости от вида контента. Затем вычисляют в качестве признаков центральные моменты из распределения коэффициентов дискретного косинусного преобразования цветовой компоненты Y каждого файла обучающей выборки и формируют собственный характеристический вектор признаков каждого файла обучающей выборки. Далее формируют двумерные массивы признаков для каждого класса файлов обучающей выборки, вычисляют среднее арифметическое и среднее квадратическое отклонение в массиве признаков обучающей выборки. После чего нормируют значения признаков и используют их для формирования линейного прогностического правила, с помощью которого вычисляют и сохраняют коэффициенты линейной прогностической функции. Затем, на основе полученных нормированных значений признаков собственного характеристического вектора каждого распознаваемого сжатого неподвижного графического сообщения в формате JPEG и сохраненных коэффициентов линейной прогностической функции, получают значение линейной прогностической функции, которое сравнивают с порогом и принимают решение о принадлежности анализируемого сжатого неподвижного графического сообщений в формате JPEG к одному из распознаваемых классов. После этого формируют массивы сжатых неподвижных графических сообщений в формате JPEG в соответствии с принадлежностью к конкретному классу.

Новая совокупность существенных признаков позволяет достичь указанного технического результата по обработке сжатого НГС в формате JPEG, путем исключения процедур деквантования значений массивов коэффициентов и последующего их преобразования в цветовую схему RGB, и использования дополнительных информативных признаков.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа распознавания контента сжатых НГС в формате JPEG, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Промышленная применимость изобретения обусловлена тем, что устройство, реализующее предложенный способ, может быть осуществлено с помощью современной элементной базы, в качестве которой используются современные высокопроизводительные программируемые логические интегральные схемы (ПЛИС) типа Xilinx Spartan-6 LX45 FPGA или Xilinx Virtex-7 2000T архитектуры FPGA, обеспечивающие быстродействующую обработку потока изображений (Угрюмов Е. П., Программируемые логические матрицы, программируемая матричная логика, базовые матричные кристаллы / Цифровая схемотехника. Учебное пособие для вузов. Изд. 2, БХВ-Петербург, 2004. Глава 7 – 357 с.).

Заявленный способ поясняется чертежами, на которых:

на фиг. 1 – схема общей структуры организации системы распознавания контента сжатых НГС в формате JPEG;

на фиг. 2 – логическая схема этапов обучения системы распознавания контента сжатых НГС в формате JPEG и непосредственно распознавания;

на фиг. 3 – сравнения времени обработки сжатых НГС в формате JPEG прототипом и заявленным способом;

на фиг. 4 – сравнения вероятности распознавания контента сжатых НГС в формате JPEG прототипом и заявленным способом.

Основу предлагаемого способа распознавания контента сжатых НГС в формате JPEG составляют теоретические предпосылки в виде выявленных статистических свойств в массивах коэффициентов ДКП, присущих структуре сжатых НГС в формате JPEG с различным контентом, с применением линейного метода распознавания данных с обучением. С учетом этого способ включает в себя два основных этапа (фиг.1): обучение системы и непосредственно распознавание контента сжатых НГС в формате JPEG на основе сохраненных результатов обучения путем разделения на классы S1 и S2 в зависимости от типа контента.

Реализация заявленного способа заключается в следующем (фиг. 2).

1. Считывают из массива файлов формата JPEG служебную область очередного обрабатываемого файла, необходимую для правильного декодирования информационной области файла, т.е. размеры массива пикселей, адрес информационной области (области контента), таблицы кода Хаффмана.

2. На основании данных из служебной области о размере изображения определяют объем растра изображения . В рамках способа прототипа в качестве порогового значения объема растра предлагается величина , которая определяется на основе анализа многочисленных НГС в реальных каналах передачи данных.

3. Декодируют информационную часть файла формата JPEG кодом Хаффмана.

4. Декодируют повторы (RLE-декодирование) области контента сжатого НГС.

5. Формируют из полученных после RLE-декодирования области контента сжатого НГС в формате JPEG двумерный массив коэффициентов ДКП цветовой компоненты Y, отвечающую за яркость. Натурные эксперименты показали, что именно данная компонента содержит основную информацию о контенте сжатого изображения.

6. Вычисляют центральные моменты из распределений коэффициентов ДКП цветовой компоненты Y, в общем виде согласно выражению (1):

, (1)

где s – порядок момента;

– объем выборки;

– частота появления величины со значением ;

– выборочное среднее.

Формирование словаря признаков на основе значений центральных моментов базируется на утверждении о том, что основными статистическими характеристиками, описывающими распределение случайной величины, являются центральные моменты некоторых порядков [Гмурман, В. Е. Теория вероятностей и математическая статистика: учеб. пособие для вузов / В. Е. Гмурман. – 9-е изд., стер. – М.: Высш. шк., 2003. – 479 с.: ил.].

Отмечается, что моменты более высоких порядков позволяют охарактеризовать и «усилить роль» больших, но маловероятных значений случайной величины. Как показали эксперименты в данных характеристиках случайной величины и наблюдаются основные отличия у НГС с разным контентом. Учитывая это, для получения точечных оценок из распределения случайной величины при неизвестном законе распределения в предлагаемом способе используются центральные моменты порядков 2–10. Применение для создания распознающей системы центральных моменты именно данных порядков основывается на предварительно проведенных натурных экспериментах, в которых оценивалась эффективность разделения НГС на классы с помощью комбинаций признаков.

7. Формируют собственный характеристический вектор (СХВ) признаков каждого считанного файла формата JPEG, который включает значения центральных моментов различных порядков, вычисленных из распределения коэффициентов ДКП цветовой компоненты Y и характеризующих особенности частотной области обрабатываемого НГС:

. (2)

Обучают систему распознавания контента сжатых НГС в формате JPEG, основываясь на модели линейного дискриминантного анализа Фишера [Горелик, А. Л. Методы распознавания: учебное пособие для вузов / А. Л. Горелик, В. А. Скрипкин. – Изд. 4. – Москва: Букинист. – 2004. − 262 с.] На этапе обучения выполняют следующее:

8. Формируют обучающую выборку для двух классов (S1 и S2) сжатых НГС в формате JPEG в зависимости от вида контента.

Количество НГС каждого класса в обучающей выборке определяют исходя из испытаний Бернулли, как следствия из закона больших чисел [Вентцель, Е. С. Теория вероятностей: учебник / Е.С. Вентцель. – 11-е изд., стер. – Москва: КНОРУС, – 2010. – 664 с.]:

, (3)

где – вычисляемая вероятность (правильной классификации либо класса S1, либо класса S2),

ε – точность определения вероятности, Ф(∙) – функция Лапласа;

, n – количество наблюдений (количество сжатых НГС определенного класса в обучающей выборке).

При условии вероятности ложной тревоги, не превышающей значение , задаваясь точностью с достоверностью , для обучения классификатора необходимо не менее сжатых НГС, класса S2. При тех же условиях, но с учетом, что вероятность обнаружения сжатых НГС в формата JPEG класса S1, должна быть не менее , для обучения необходимо использовать сжатых НГС в формата JPEG класса S1.

9. Из векторов всех сжатых НГС в формата JPEG, включенных в обучающую выборку, формируют двумерные массивы признаков для каждого класса файлов обучающей выборки .

10. В массиве признаков обучающей выборки без разбиения на классы вычисляют среднее арифметическое и среднее квадратичное отклонение для каждого j-го признака.

11. Нормируют значения признаков (j-го признака i-го сжатого НГС в формата JPEG) в массивах обучающей выборки в соответствии с выражением (4):

, (4)

где – исходное значение j-го признака i-го сжатого НГС в формата JPEG в обучающей выборке.

Нормирование элементов векторов признаков приводит к приведению их к безразмерным величинам и к определенному диапазону изменений значений этих признаков.

12. Используют нормированные значения признаков для формирования линейного прогностического правила следующего вида:

, (5)

где – вектор значений признаков распознаваемого объекта;

– обратная ковариационная матрица для двух классов S1 и S2.

Среднюю ковариационную матрицу для двух классов S1 и S2 оценивают в соответствии с выражением (6):

, (6)

где n1 и n2 – количество сжатых НГС в формате JPEG в соответствующих парах классов в обучающей выборке;

– двумерные массивы, у которых по строкам расположены значения признаков объектов k-го класса вычисленных в соответствии с выражением (7):

, (7)

где – массив значений признаков объектов k-го класса из обучающей выборки;

– массив, у которого по столбцам расположены средние значения признаков k-го класса.

13. Вычисляют коэффициенты линейной прогностической функции, представляющей собой уравнение разделяющей поверхности, которое в общем виде можно представить выражением (8):

, (8)

где , – коэффициенты линейной прогностической функции, полученные на основе выражения (5).

14. Сохраняют результаты обучения классификатора в виде коэффициентов линейной прогностической функции , .

Следовательно, для реализации этапа распознавания необходима информация, полученная на этапе обучения классификатора , , .

15. На этапе распознавания контента сжатого НГС в формате JPEG нормируют значения признаков СХВ распознаваемого сжатого НГС в соответствие с выражением (4) и на основе результатов, полученных в блоке 11.

16. Подставляют нормированные значения признаков СХВ распознаваемого сжатого НГС в формате JPEG в линейное прогностическое правило, полученное в блоке 12.

17. Вычисляют значение полученной в блоке 13 линейной прогностической функции (8), используя результаты обучения классификатора в виде коэффициентов линейной прогностической функции , .

18. Разделяют сжатые НГС в формате JPEG на классы по видам контента в соответствии с правилом: если , то относим сжатое НГС к классу S1, если , к классу S2.

Экспериментальная проверка способа прототипа и способа распознавания контента сжатых НГС в формате JPEG была выполнена на ЭВМ при помощи пакета прикладных программ для решения задач технических вычислений MATLAB с использованием дополнительных библиотек функций реализованных в С++ при следующих исходных данных:

1) 500 сжатых НГС в формате JPEG класса S1 с объемом каждого файла 500–3 000 кбайт, содержащих цифровые изображения текста (цифровые фотографии книг, газет, учебников);

2) 500 сжатых НГС в формате JPEG класса S2 с объемом каждого файла 500–3 000 кбайт, содержащих цифровые изображения пейзажей и портретов.

3) сжатые НГС в формате JPEG не искажены и в хорошем качестве с объемом растра не менее порогового значения, пикселов.

Таблица 1

Кол-во НГС, класс Время обработки одного НГС
Способ
прототипа
500, S1 0,92 0,08 0,6 с
500, S2 0,92 0,08
Заявленный способ 500, S1 0,97 0,07 0,5 с
500, S2 0,93 0,03

Результаты экспериментов показали, что при сравнении основных показателей способа прототипа и заявленного способа следует вывод, что в предлагаемом способе повышается вероятность правильного распознавания с 92 % до 97 % (фиг.3) и уменьшается длительность обработки (фиг.4) при распознавании контента сжатых НГС формата JPEG двух различных классов: содержащих и не содержащих текст.

Таким образом, эффективность заявленного способа по сравнению со способом прототипа увеличилась на 16,7 %, а также вероятность правильного распознавания контента сжатых НГС формата JPEG выросла на 5 %, чем достигается заявленный технический результат.

Заявленный способ распознавания контента сжатых НГС формата JPEG, с помощью которого можно осуществлять предварительное распознавание контента сжатых НГС и основанный на различиях статистических свойств коэффициентов ДКП яркостной составляющей Y, позволяет сократить время обработки каждого сжатого НГС в формате JPEG за счет уменьшения количество операций по декодированию путем исключения процедур деквантования значений массивов коэффициентов и последующего их преобразования в цветовую схему RGB, а также повысить вероятность правильного распознавания контента НГС в формате JPEG за счёт использования нескольких информативных признаков.

Способ распознавания контента сжатого неподвижного графического сообщения в формате JPEG, заключающийся в том, что на основе анализа служебной части файла формата JPEG определяют объем его растра, декодируют информационную часть файла формата JPEG по Хаффману, формируют двумерный массив значений коэффициентов дискретного косинусного преобразования цветовой компоненты Y, отличающийся тем, что формируют обучающую выборку для двух классов сжатых неподвижных графических сообщений в формате JPEG в зависимости от вида контента, вычисляют в качестве признаков центральные моменты из распределения коэффициентов дискретного косинусного преобразования цветовой компоненты Y каждого файла обучающей выборки, формируют собственный характеристический вектор признаков каждого файла обучающей выборки, потом формируют двумерные массивы признаков для каждого класса файлов обучающей выборки, вычисляют среднее арифметическое и среднее квадратическое отклонение в массиве признаков обучающей выборки, затем нормируют значения признаков и используют их для формирования линейного прогностического правила, с помощью которого вычисляют и сохраняют коэффициенты линейной прогностической функции, затем на основе полученных нормированных значений признаков собственного характеристического вектора каждого распознаваемого сжатого неподвижного графического сообщения в формате JPEG и сохраненных коэффициентов линейной прогностической функции получают значение линейной прогностической функции, которое сравнивают с порогом и принимают решение о принадлежности анализируемого сжатого неподвижного графического сообщения в формате JPEG к одному из распознаваемых классов, после чего формируют массивы сжатых неподвижных графических сообщений в формате JPEG в соответствии с принадлежностью к конкретному классу.



 

Похожие патенты:

Изобретение относится к системе и способу сопоставления изображений. Технический результат заключается в повышении быстродействия и улучшении точности сопоставления изображений.

Изобретение относится к области видеосъемки. Технический результат – создание видеокамеры с увеличенной функциональностью за счет отсутствия необходимости использования внешних вычислительных систем и сетевой инфраструктуры для обработки и анализа видеоизображения.

Изобретение относится к способу оцифровывания документов, электронному архиву и машиночитаемому носителю. Технический результат заключается в обеспечении оцифровывания документов, к которым предъявляют дополнительные требования конфиденциальности.

Изобретение относится к области технологий связи. Технический результат заключается в повышении эффективности процесса совместного использования и обработки фотографий.

Изобретение относится к области обработки изображений и оптическому распознаванию символов. Технический результат – обеспечение выявления содержащих документ фрагментов на изображении.

Изобретение относится к автоматике и вычислительной технике и может быть использовано при построении интеллектуальных систем технического зрения, видеонаблюдения, видеоконтроля.

Изобретение относится к области распознавания образов и может быть использовано в системах распознавания космических аппаратов по радиолокационной информации. Технический результат - снижение количества вычислений на этапе принятия решения о классе космического аппарата и повышение вероятности правильной классификации космических аппаратов по сильно зашумленным изображениям после проведения процедуры редуцирования.

Изобретение относится к устройству захвата изображений, системе захвата изображений и способу управления для устройства захвата изображений. Технический результат заключается в уменьшении объема данных опорной пиксельной области, которые записываются, при одновременном подавлении снижения качества при обработке коррекции изображения.

Изобретение относится к области распознавания лиц и идентификации личности человека. Технический результат – повышение точности распознавания лица.

Группа изобретений относится к технологиям распознавания символов, соответствующих изображениям символов, полученных из изображения отсканированного документа или другого изображения, содержащего текст.

Изобретение относится к носимому интеллектуальному устройству. Техническим результатом является обеспечение управления аватаром пользователя реалистичным образом.

Изобретение относится к области обработки изображений. Технический результат – обеспечение защиты данных 3D изображения за счет преобразования данных 3D изображения в частично рандомизированный массив.

Изобретение относится к системе и способу сопоставления изображений. Технический результат заключается в повышении быстродействия и улучшении точности сопоставления изображений.

Изобретение относится к способу и устройству распознавания отпечатков пальцев, которые принадлежат области технологий, связанных с терминальными устройствами. Техническим результатом является повышение точности распознавания отпечатка пальца, поскольку снимается необходимость в многократном повторном получении изображения отпечатка пальца, соответствующего операции касания, может быть снижено энергопотребление терминала.

Изобретение относится к области систем отслеживания. Технический результат заключается в повышении точности регистрирования и отслеживания транспортного средства аттракциона для катания.

Изобретение относится к средствам распознавания ценных документов. Технический результат заключается в обеспечении долговременного устойчивого результата использования средств распознавания с учетом изменения условий использования.

Изобретение относится к области технологий связи и раскрывают терминал, устройство и способ обработки события отпечатка пальца. Технический результат заключается в уменьшении количества рабочих процедур для переключения прикладной программы.

Изобретение относится к средствам обработки электронных документов для распознавания инвойсов. Техническим результатом является повышение точности извлечения данных из инвойсов.

Изобретение относится к области обработки изображений. Технический результат заключается в повышении производительности, снижении вычислительной сложности и количества информации, необходимой для создания масштабируемых битовых потоков.

Изобретение относится к области контроля качества многоспектрального сигнала, используемого для идентификации банкнот. Технический результат заключается в повышении точности идентификации.
Наверх