Способ классификации документов по категориям


 


Владельцы патента RU 2491622:

Общество с ограниченной ответственностью "Центр Инноваций Натальи Касперской" (RU)

Изобретение относится к способу классификации документов по категориям. Техническим результатом является повышение скорости классификации и сокращение потребного объема памяти. Для достижения этого результата в способе классификации документов по категориям строят онтологию в виде совокупности категорий. Выявляют для каждой категории термины, т.е. последовательности слов, характерные для текстов данной категории, и определяют вес каждого из выявленных терминов в процессе считывания электронных версий документов из обучающей коллекции документов. Формируют профиль для каждой из категорий в виде списка всех терминов во всех категориях онтологии с указанием веса каждого термина в данной категории. Составляют для каждого термина перечень возможных комбинаций из словоформ слов этого термина. Выделяют выявленные термины в каждом подлежащем классификации документе при считывании его электронной версии, учитывая только словоформы из составленного перечня. Формируют для каждого подлежащего классификации документа профили для каждой из категорий на основе выделенных терминов. Находят релевантность данного документа каждой из категорий путем сопоставления профилей этого документа профилям категорий в онтологии. Строят классификационный спектр документа в виде совокупности категорий с релевантностью, найденной для каждой из них. 6 з.п. ф-лы.

 

Настоящее изобретение относится к способу классификации документов по категориям и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов.

Уровень техники

В процессе автоматического анализа текстовых документов, например, в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации, требуется классифицировать проверяемый документ в ту или иную категорию.

Ныне известны различные способы классификации текстовых документов.

Так, в патенте РФ №2167450 (опубл. 20.05.2001) охарактеризован способ идентификации объектов по их описаниям, в котором осуществляют лингвистическую сортировку всех слов текста по заданным кластерам. Использование именно всех слов текста для классификации резко удлиняет процесс классификации и требует большого объема памяти для запоминания всех (или большей части) слов используемого языка.

В заявке на патент США №2008/0098010 (опубл. 24.04.2008) раскрыты система и способ для классификации, публикации, поиска и определения местоположения электронных документов. Согласно этой заявке, электронные документы классифицируют по онтологическому описанию, состоящему из векторов, каждый из которых содержит пару значений признаков. Каждый интервал вектора соответствует признаку, а векторный диапазон каждого интервала соответствует набору всех возможных значений каждого признака. Для построения классификации применяются две хэш-функции, первая из которых отображает каждый признак в номер интервала, соответствующий координате вектора, а вторая отображает значение каждой пары в численное значение интервала, соответствующее диапазону каждой координаты. Результат двух хэш-функции можно отобразить в узел гиперкуба. Данный способ также требует достаточно долгого времени для своей реализации.

Наиболее близкий аналог настоящего изобретения представлен в заявке на патент США №2010/0205525 (опубл. 12.08.2010), раскрывающей способ для автоматической классификации текста с помощью компьютерной системы. В этом способе подлежащий классификации текст преобразуют в последовательность алфавитно-цифровых символов, которую, в свою очередь превращают в так называемый шингл, т.е. байтовую строку, в которой некоторые специальные символы заменены на буквы. Находят частоту появления шингла в подлежащем классификации тексте, сравнивают ее с частотой такого же шингла в эталонных документах и в зависимости от результата этого сравнения классифицируют соответствующий документ.

Однако и в этом способе требуется достаточно длительное время для анализа, поскольку в шинглы преобразуют чаще всего полные слова, которые при этом снабжаются различными дополнительными указателями: тип части речи (существительное, прилагательное и т.п.), тип фразы (глагольная, деепричастная и т.п.), уровень синонимии (слова одного уровня - «моросит» и «льет как из ведра», слова соседних уровней - «ЦСКА» и «футбольная команда», и т.п.). Следовательно, в этом способе нужно анализировать шинглы, составленные из большинства слов используемого языка, что, кстати, требует значительного объема памяти для хранения таких шинглов.

Раскрытие изобретения

Настоящее изобретение сделано для преодоления указанных недостатков уровня техники и обеспечивает технический результат в виде повышения скорости классификации и сокращения потребного объема памяти.

Для достижения указанного технического результата предложен способ классификации документов по категориям, заключающийся в том, что: строят онтологию в виде совокупности категорий; выявляют для каждой из категорий термины, каждый из которых представляет собой последовательность слов, характерную для текстов данной категории; определяют вес каждого из выявленных терминов в каждой из категорий в процессе считывания электронных версий документов из обучающей коллекции документов; формируют для каждой из категорий ее профиль в виде списка всех терминов во всех категориях онтологии с указанием веса каждого термина в данной категории; составляют для каждого термина перечень возможных комбинаций из словоформ тех слов, которые входят в этот термин; выделяют выявленные термины в каждом подлежащем классификации документе при считывании его электронной версии, учитывая только словоформы из перечня, составленного для данного термина; формируют для каждого подлежащего классификации документа его профили для каждой из категорий на основе выделенных при считывании терминов; находят релевантность данного документа каждой из категорий путем сопоставления профилей этого документа профилям категорий в онтологии; строят классификационный спектр документа в виде совокупности категорий с релевантностью, найденной для каждой из них.

Особенность данного способа заключается в том, что каждой словоформе термина могут присваивать уникальный идентификатор и использовать уникальные идентификаторы при формировании профилей.

Еще одна особенность данного способа состоит в том, что для каждого из сформированных профилей могут строить его вектор в многомерном пространстве, каждое измерение которого соответствует одному термину, а при сопоставлении профилей вычислять косинусную меру между сопоставляемыми векторами в этом многомерном пространстве. В этом случае при построении классификационного спектра любого документа используют лишь те из категорий, для которых косинусная мера между сопоставляемыми векторами превышает заранее заданную пороговую величину.

Еще одна особенность данного способа состоит в том, что вес каждого термина могут определять как TF·IDF где TF - частота встречаемости термина во всех документах данной категории в обучающей коллекции документов, a IDF - обратная документная частота, характеризующая, в скольких документах данной категории из общего количества документов встречается данный термин.

Еще одна особенность данного способа состоит в том, что онтологию строят в виде иерархически связанной последовательности категорий.

Наконец, еще одна особенность данного способа состоит в том, что используют синтаксический анализ для разрешения лексической омонимии в текстах терминов на основе перечней, составленных для каждого термина.

Подробное описание вариантов осуществления

Настоящее изобретение может быть реализовано в любой вычислительной системе, например, в персональном компьютере, на сервере и т.п.Для осуществления изобретения необходимо также наличие соответствующей базы данных, в которой хранятся электронные файлы текстовых документов.

Способ по настоящему изобретению предназначен для классификации по различным категориям тех документов, которые могут далее подвергаться, например, так называемому копирайтному анализу (английский аналог - fingerprint detection), задачей которого является установление схожести бинарных и (или) текстовых документов документам, переданным ранее в базу данных (библиотеку) в качестве эталонных, или какой-либо иной текстовой обработке.

Классификация позволяет соотнести приходящие электронные версии текстовых документов одной или нескольким категориям. Категории могут быть выбраны по желанию проектировщика или в соответствии с требованиями, предъявляемыми к системе, в которой используется способ по настоящему изобретению. Примеры категорий можно найти в упомянутых выше заявках на патент США №№2008/0098010 и 2010/0205525, а также в заявке на патент США №2009/0327189 (опубл. 31.12.2009) и в международной заявке № WO 2010/134752. Категории могут выбираться независимо, однако предпочтительно, чтобы категории выстраивались в виде иерархически связанной последовательности, как это имеет место, например, в упомянутых международной заявке № WO 2010/134752 и заявке на патент США №2009/0327189.

Совокупность выбранных категорий, по которым будут классифицироваться поступающие электронные версии документов, составляет онтологию классификации. Как уже указано, онтологию строят предпочтительно в виде иерархически связанной последовательности выбранных категорий. Это позволяет в некоторых случаях в отсутствие соответствующей категории на некотором уровне онтологии переходить на более высокий уровень по иерархическому дереву.

Для каждой из выбранных категорий онтологии выявляют термины, каждый из которых представляет собой последовательность слов, характерную для текстов данной категории. Последовательность слов в каком-либо термине может содержать одно или несколько слов. При этом учитывают словоформы каждого слова, входящего к термин. Это особенно важно для таких высоко флективных языков как русский и другие славянские языки, однако вполне применимо и для менее флективных языков, как, к примеру, английский. Учет словоформ осуществляют следующим образом.

Для каждого термина составляется перечень возможных комбинаций словоформ всех слов, входящих в этот термин. Предпочтительно, каждой словоформе присваивают уникальный номер, а все последовательности словоформ (или их номеров), принадлежащих данному термину, помечают идентификатором этого термина. При этом последующее выделение выявленных терминов в ходе обработки поступающей электронной версии текстового документа осуществляют именно по словоформам, находя их в обрабатываемом тексте и определяя, в какой термин входит та или иная словоформа. А классификацию текста производят уже по комбинациям словоформ, входящих в тот или иной термин.

На этапе «обучения» - как, впрочем, и на последующем этапе классификации поступающих текстов - считывают электронные версии документов: на этапе обучения и построения онтологии это будут документы из обучающей коллекции документов (так сказать, эталонные документы). В процессе этого считывания и нахождения выявленных терминов определяют вес каждого из выявленных терминов в каждой из упомянутых категорий. Определение веса можно производить любым методом, к примеру, так же, как это делается в упомянутой заявке США №2008/0098010. В настоящем изобретении предпочтительно используется метод, при котором вес каждого термина определяют как TF·IDF, где TF - частота встречаемости термина во всех документах данной категории в обучающей коллекции документов (т.е. число вхождений данного термина во все документы данной категории), а IDF - обратная документная частота, характеризующая, в скольких документах данной категории из общего количества документов встречается данный термин (см. http://ru.wikipedia.org/wiki/TF-IDF).

После определения веса каждого термина формируют для каждой из выбранных категорий ее профиль в виде списка всех терминов во всех категориях построенной онтологии с указанием веса каждого термина в данной категории. Для документов из обучающей коллекции эти профили считаются эталонными, а для проверяемых документов - рабочими. При формировании профилей, если, как в предпочтительном варианте осуществления, каждой словоформе термина был присвоен уникальный идентификатор, эти уникальные идентификаторы используют для формирования профилей.

После формирования профиля конкретного классифицируемого документа для каждой из категорий онтологии, осуществляемого на основе терминов, выделенных при считывании данного текстового документа, находят релевантность данного документа каждой из категорий онтологии путем сопоставления профилей этого документа профилям категорий в онтологии. Указанное сопоставление можно осуществлять по-разному. Это можно делать, например, так же, как в упомянутой выше заявке на патент США №2008/0098010. Однако в настоящем изобретении предпочтительно используется сравнение профилей посредством вычисления коэффициента Пирсона, т.е. косинуса угла векторов профилей в многомерном векторном пространстве, где для каждого термина введено свое измерение (см. http://rcdl.ru/doc/2010/430-435.pdf). В этом случае косинусная мера сравнения может варьироваться в пределах от -1 до +1.

По найденным значениям релевантности строят классификационный спектр конкретного документа в виде совокупности категорий с релевантностью, найденной для каждой из них. В этот классификационный спектр попадают категории, для которых значение релевантности превышает некоторую пороговую величину, например, 0,1.

При считывании электронной версии подлежащего классификации документа, как уже было отмечено, учитывают только словоформы из перечня, составленного для данного термина. Это позволяет резко сократить время обработки, т.к., во-первых, при этом используются только те слова, которые есть в построенной онтологии, что ускоряет поиск выявленных терминов (т.е. на первом, нижнем уровне обработки), а во-вторых, выделяются только те словоформы, которые есть в выявленных терминах, что ускоряет классификацию текста (на втором, верхнем уровне обработки). Помимо этого, не требуется большой объем памяти, т.к. хранить нужно только имеющиеся словоформы, а не все слова того языка, на котором написан текст классифицируемого документа.

Есть и еще одно преимущества использования только имеющихся в терминах словоформ. В случае омонимии двух слов для разрешения такой лексической омонимии в текстах терминов на основе перечней, составленных для каждого термина, можно использовать синтаксический, а не семантический анализ, что значительно упрощает данную процедуру.

Таким образом, способ классификации документов по категориям в соответствии с настоящим изобретением обеспечивает технический результат в виде повышения скорости классификации и сокращения потребного объема памяти.

1. Способ классификации документов по категориям, заключающийся в том, что:
- строят онтологию в виде совокупности упомянутых категорий;
- выявляют для каждой из упомянутых категорий термины, каждый из которых представляет собой последовательность слов, характерную для текстов данной категории;
- определяют вес каждого из выявленных терминов в каждой из упомянутых категорий в процессе считывания электронных версий документов из обучающей коллекции документов;
- формируют для каждой из упомянутых категорий ее профиль в виде списка всех терминов во всех категориях упомянутой онтологии с указанием веса каждого термина в данной категории;
- составляют для каждого термина перечень возможных комбинаций из словоформ тех слов, которые входят в этот термин;
- выделяют упомянутые выявленные термины в каждом подлежащем классификации документе при считывании его электронной версии, учитывая только словоформы из упомянутого перечня, составленного для данного термина;
- формируют для каждого подлежащего классификации документа его профили для каждой из упомянутых категорий на основе выделенных при считывании терминов;
- находят релевантность данного документа каждой из упомянутых категорий путем сопоставления профилей этого документа профилям категорий в упомянутой онтологии;
- строят классификационный спектр упомянутого документа в виде совокупности упомянутых категорий с релевантностью, найденной для каждой из них.

2. Способ по п.1, в котором:
- присваивают каждой словоформе термина уникальный идентификатор;
- используют упомянутые уникальные идентификаторы при упомянутом формировании профилей.

3. Способ по п.1 или 2, в котором:
- строят для каждого из сформированных профилей его вектор в многомерном пространстве, каждое измерение которого соответствует одному термину;
- при упомянутом сопоставлении профилей вычисляют косинусную меру между сопоставляемыми векторами в упомянутом многомерном пространстве.

4. Способ по п.3, в котором при упомянутом построении классификационного спектра любого документа используют лишь те из упомянутых категорий, для которых упомянутая косинусная мера между сопоставляемыми векторами превышает заранее заданную пороговую величину.

5. Способ по п.1, в котором упомянутый вес каждого термина определяют как TF·IDF, где TF - частота встречаемости термина во всех документах данной категории в обучающей коллекции документов, a IDF - обратная документная частота, характеризующая, в скольких документах данной категории из общего количества документов встречается данный термин.

6. Способ по п.1, в котором упомянутую онтологию строят в виде иерархически связанной последовательности упомянутых категорий.

7. Способ по п.1 или 2, в котором используют синтаксический анализ для разрешения лексической омонимии в текстах упомянутых терминов на основе упомянутых перечней, составленных для каждого термина.



 

Похожие патенты:

Изобретение относится к области обработки данных при семантическом анализе текстовых данных и построении семантической модели документов. .

Изобретение относится к области обработки данных, а более конкретно к высокопроизводительному и при этом очень гибкому механизму синтаксического анализа/компоновки.

Изобретение относится к области для определения разборчивости символа. .

Изобретение относится к обработке естественно-языковых текстов и может быть использовано для автоматизации поиска необходимых документов в большой их коллекции. .

Изобретение относится к идентификации перефразирования в тексте. .

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, а более конкретно к представлению данных на основе голосового ввода, осуществляемого пользователем.

Изобретение относится к способу обработки естественного языка с использованием системы языковой обработки, в частности, электронной системы перевода, в котором письменный или устный текст вводится в систему языковой обработки. Техническим результатом является усовершенствование и дополнительное развитие способа обработки естественного языка, который позволяет правильно обрабатывать семантику текста или прочие данные, например входную речь и т.п. Способ включает в себя этап синтаксического анализа текста. Затем выполняется этап извлечения компонентов текста и их взаимоотношений в тексте. Граф или графическое представление текста генерируется или используется как представление смысла текста, не зависящее от языка. Этот граф или графическое представление используется для осуществления моделирования, представления знания и обработки в системе языковой обработки. Причем на этапе обработки формируют суждение о представлении в модели смыслового мира, таким образом проверяя согласованность извлеченной семантики текста. 3 н. и 26 з.п. ф-лы, 15 ил.
Изобретение относится к способам синтаксического анализа языков программирования высокого уровня и может найти применение для создания компиляторов и/или интерпретаторов языков программирования с изменяемой (расширяемой) грамматикой, предназначенных для создания проблемно-ориентированных языков. Техническим результатом является обеспечение возможности динамической модификации таблиц компиляции, положенных в основу синтаксического анализатора, путем расширения грамматики языка программирования. Способ синтаксического анализа языка программирования основан на табличном LR синтаксическом анализе. При этом канонические таблицы LR синтаксического анализатора динамически перестраиваются во время компиляции с помощью заданных отдельно для каждого уровня иерархии вложенности грамматических правил языка программирования директив расширения грамматики, предназначенных для введения новых грамматических конструкций. После чего компилятор продолжает анализ программы с использованием перестроенных LR таблиц. 4 з.п. ф-лы.

Изобретение относится к области информационных технологий, а именно к индексации текста. Техническим результатом является повышение точности построения индексов текстов на естественных языках. В способе автоматизированной семантической индексации текста на естественном языке сегментируют текст на элементарные единицы первого уровня (слова) и на предложения. Формируют единицы второго уровня (нормализованные словоформы). Подсчитывают частоту встречаемости каждой единицы первого уровня для соседних единиц первого уровня и объединяют последовательности слов в единицы третьего уровня (устойчивые сочетания слов). Выявляют в каждом предложении семантически значимый объект и его атрибут (единицы четвертого уровня). Выявляют в каждом предложении семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами. Выявляют частоты встречаемости единиц второго и третьего уровней. Формируют для каждого семантически значимого отношения множество триад (единицы пятого уровня). Индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады. 5 з.п. ф-лы, 2 ил., 23 табл.

Заявленная группа изобретений относится к решениям в области систем управления базами данных (СУБД). Техническим результатом является обеспечение автоматизации и повышение точности генерирования команд СУБД и снижение объема вычислений, требуемого для генерирования команд СУБД. В способе генерирования синтаксически и семантически верных команд преобразуют текстовую форму Бэкуса-Науэра (БНФ), содержащую мета-описание команды, в реляционную БНФ, содержащую распознаваемое СУБД мета-описание команды. Преобразуют текстовое семантическое правило, содержащее ограничение на исполнение команды, в реляционное семантическое правило, содержащее распознаваемое СУБД ограничение на исполнение команды. Идентифицируют команду и назначают основное правило для идентифицированной команды. Причем основное семантическое правило состоит из множества реляционных семантических правил. Формируют результирующую динамическую структуру для идентифицированной команды. Идентифицируют элементы основного семантического правила для идентифицированной команды и применяют все элементы всех реляционных семантических правил к идентифицированной команде. После чего генерируют синтаксически и семантически верную команду. 3 н. и 35 з.п. ф-лы, 18 ил.

Изобретение относится к области информационных технологий. Технический результат заключается в ускорении процесса сравнения текстов. В предложенном способе: представляют два сравниваемых текста в цифровой форме для последующей обработки; осуществляют индексацию текстов, получая элементарные единицы первого-пятого уровней. Выявляют частоты встречаемости элементарных единиц четвертого уровня, каждая из которых является семантически значимым объектом, или атрибутом; и частоты встречаемости семантически значимых отношений, связывающих семантически значимые объекты, а также семантически значимые объекты и атрибуты. Сохраняют сформированные элементарные единицы второго-пятого уровней, а также полученные индексы вместе со ссылками на конкретные предложения данного текста; формируют из триад, являющихся элементарными единицами пятого уровня, семантическую сеть, ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения; выявляют для двух сравниваемых текстов степень пересечения их семантических сетей. 3 з.п. ф-лы, 2 ил. 26 табл.

Изобретение относится к области информационных технологий. Техническим результатом является ускорение процесса сравнения текстов. В способе автоматизированной семантической классификации текстов на естественном языке представляют каждый классифицируемый текст в цифровой форме для последующей обработки. Индексируют текст, получая элементарные единицы первого-пятого уровней. Выявляют частоты встречаемости единиц четвертого уровня, каждая из которых является семантически значимым объектом или атрибутом, и частоты встречаемости семантически значимых отношений, связывающих семантически значимые объекты, а также объекты и атрибуты. Формируют из триад, являющихся единицами пятого уровня, семантическую сеть. Перенормируют частоты встречаемости в смысловой вес единиц четвертого уровня. Ранжируют единицы четвертого уровня по смысловому весу путем сравнения его с пороговым значением и те, которые имеют вес ниже порогового значения. Выявляют степени пересечения семантических сетей текста и текстовых выборок. Выбирают в качестве класса для текста предметные области, степени пересечения семантической сети которых с семантической сетью текста больше порога. 5 з.п. ф-лы, 2 ил., 24 табл.
Изобретение относится к области выявления программных ошибок и не декларируемых возможностей в веб-приложениях на интерпретируемых языках. Техническими результатами являются повышение числа потенциально обнаруживаемых уязвимостей веб-приложений, а также сокращение времени, необходимого для ручного анализа программных ошибок с целью определения их критичности. В способе определения уязвимых функций при автоматизированной проверке веб-приложений на наличие уязвимостей и не декларируемых возможностей составляют список исходных текстов веб-приложений, предназначенных для формирования параметров тестирования, и задают параметры исходных текстов для тестирования. Проводят синтаксический анализ исходных текстов, используя заданные параметры, и добавляют опознавательные метки в исходные тексты с указанием пар метка-функция. Проводят автоматизированную проверку и поиск программных ошибок в веб-приложениях и получают при возникновении ошибки отладочную информацию в виде машинного кода, описывающего текущий исполняемый модуль и содержащего имя соответствующей метки. Определяют по этой метке соответствующую пару метка-функция и получают название уязвимой функции, а также полное имя модуля, содержащего уязвимую функцию. 2 з.п. ф-лы.

Изобретение относится к решениям в области обработки массивов данных, в частности к решениям в области обработки структурированных массивов данных, содержащих текст на естественном языке. Техническим результатом является формирование логически, грамматически и орфографически верной структуры данных, обеспечивающей быструю и удобную навигацию по элементам структуры. В способе преобразования структурированного массива данных, содержащего текст на естественном языке, формируют (101) первую структуру данных структурированного массива данных из итоговой структуры данных структурированного массива данных. Формируют (102) базу данных логических связей логических разделов элементов первой структуры данных. Формируют (103) вторую структуру данных структурированного массива данных. Формируют (104) базу данных семантических частей логических разделов элементов второй структуры данных. Формируют (105) грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных путем лингвистических преобразований над упомянутыми семантическими частями. Формируют (106) итоговую структуру данных структурированного массива данных. 4 н. и 13 з.п. ф-лы, 15 ил., 3 табл.

Изобретение относится к области систем управления базами данных (СУБД). Техническим результатом является обеспечение автоматического формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды. В способе формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды идентифицируют 110 метаописание синтаксиса команды. Идентифицируют 120 элементы метаописания и присваивают каждому элементу уникальный идентификатор (ID), причем ID присваивается в порядке очередности расположения элементов в метаописании. Формируют 130 таблицу, содержащую все элементы, причем каждый элемент содержится в одной колонке таблицы на разных строках таблицы. Идентифицируют 140 открывающие структурные элементы и закрывающие структурные элементы среди элементов, содержащихся в таблице, и генерируют двунаправленные связи между соответствующими открывающими и закрывающими структурными элементами. Генерируют 150 однонаправленные иерархические связи между открывающими элементами и соответствующим открывающим элементом, находящимся на предыдущем уровне вложенности, причем генерирование упомянутых связей осуществляется для каждого открывающего элемента, находящегося на любом из уровней, кроме первого уровня. 4 н. и 13 з.п. ф-лы, 15 ил.

Изобретение относится к области обработки данных, а именно к распознаванию текстовой информации. Техническим результатом является повышение производительности системы содержательной обработки электронных документов и увеличение числа анализируемых источников информации. В способе распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет электронный документ разбивают на области, предположительно содержащие абзацы и строки текста. Причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Осуществляют удаление избыточной и излишней информации. Анализируют корректность кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка. Вычисляют статистические характеристики частей речи и их форм. Из полученных значений статистических характеристик формируют вектор признаков рабочего словаря, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов. Оценивают полноту текстовой информации на основе мажоритарного способа принятия решения. 5 ил.
Наверх