Способ автоматизированного определения языка или языковой группы текста

Авторы патента:

Калегин Сергей Николаевич (RU)

G06F17/27 - автоматический анализ, например, синтаксический разбор, коррекция орфографических ошибок

Владельцы патента RU 2607989:

Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") (RU)

Изобретение относится к автоматизированному определению языка или языковой группы (например, романская, германская, кельтская, славянская и т.д.), к которой относится язык анализируемого текста. Техническим результатом является обеспечение возможности работы с многоязычными текстами и точного определения всех языков, используемых в анализируемом тексте, при наличии в нем форм глаголов из набора идентифицирующих элементов. В способе автоматизированного определения языка или языковой группы текста создают набор идентифицирующих элементов из групп наиболее употребительных глаголов каждого определяемого языка или языковой группы и сохраняют его на носителе информации. При этом в качестве идентифицирующих элементов используют грамматические формы и семантически значимые части глаголов (корни или основы) каждого определяемого языка. Производят сопоставление каждого идентифицирующего элемента набора с элементами анализируемого текста. При выявлении совпадений элементов язык определяют по принадлежности совпавших элементов к определенному языку из набора. 1 ил.

Предлагаемый способ относится к системам автоматизированного определения языка или языковой группы текста, использующим электронно-вычислительные средства (далее по тексту ЭВМ) и может быть использован в процессе автоматизированного анализа и/или перевода текстов, например, в случае отбора (сортировки) текстов на разных языках по тематике, языку, языковым группам или машинного перевода текста на нужный язык.

Известен способ автоматического определения языка распознаваемого текста при многоязычном распознавании, в котором по отдельным распознанным символам текста формируются гипотезы о языковой принадлежности группы символов, которые проверяются с помощью лингвистических моделей с предварительно определенными признаками различных языков, что приводит к получению вероятностного определения языка [1]. Этот способ разработан для систем распознавания изображений (знаков) и не предлагает оригинального решения для определения языка текста, так как определение языковой принадлежности распознаваемого текста осуществляется по известным лингвистическим моделям и словарям.

Эффективность этого и других известных способов недостаточно высока вследствие необходимости перебора отдельных словосочетаний и/или слов по словарям, создания лингвистических моделей, сравнения символов национальных письменных систем или групп символов по набранной статистике встречаемости их комбинаций, что требует затраты нецелесообразного количества ресурсов. Эффективность определения языка текста снижается также из-за того, что во многих языках отдельные словосочетания, слова и комбинации символов могут полностью совпадать, что приводит к ошибкам определения языка или к вероятностным результатам.

Известен способ идентификации языка текста по наборам определенных байтовых последовательностей (комбинаций символов) в соответствии с заранее набранной статистикой встречаемости таких последовательностей в текстах на каждом определяемом языке [2]. Этот способ является функциональным аналогом предлагаемого здесь способа, так как цель, последовательность операций и результаты его применения наиболее близки к предлагаемому способу. Недостатком этого способа является необходимость набора статистических данных по встречаемости определенных байтовых последовательностей в большом количестве текстов на идентифицируемых языках. Другим недостатком этого способа является вероятностный результат, который не позволяет однозначно определить язык или языковую группу проанализированного текста.

Кроме того, в тексте могут встречаться фрагменты на других языках, отличных от языка самого текста (например, в текстах русских писателей 18-19 веков часто встречаются выражения на французском языке), или части, записанные другой письменной системой. Например, в одном тексте часто совместно используются кириллица и латиница, к примеру, при иноязычных включениях, описании терминов, либо используется латиница вместо обычной кириллицы при транслитерации и транскрипции или допустимых вариантах написания.

Основным недостатком этого и большинства известных способов определения языка текста является необходимость подробного анализа текста, например, при построении лингвистических моделей (графов), или перебора и сравнения больших объемов данных (например, словарей определяемых языков), что требует нецелесообразной затраты ресурсов. Другим их недостатком является получение вероятностного результата при определении языка.

Указанные недостатки приводят к нерациональной затрате ресурсов и частым ошибкам при определении языка. Например, при определении языка моноязычного текста известными способами, данный текст может быть отнесен к нескольким языкам разных групп с примерно одинаковой вероятностью. В результате чего невозможно понять, к какой категории отнести данный текст при классификации, для какой группы языков требуется специалист (или какая требуется программа) для дальнейшей обработки и/или перевода данного текста.

Технический результат предлагаемого способа - автоматизированный режим определения языка текста, при этом реализуются:

1) возможность работы с многоязычными текстами и точного определения всех языков, используемых в анализируемом тексте, при наличии в нем форм глаголов из набора идентифицирующих элементов;

2) возможность точного определения языковой семьи, ветви или группы языков, к которой относится язык анализируемого текста (например, славянская, германская, романская, кельтская и т.д.);

3) возможность идентифицировать язык по формам и/или их семантически значимым частям, например, основам или корням небольшой группы глаголов, например вспомогательных, модальных, наиболее употребительных и т.д. (в каждой группе по несколько глаголов), или комбинации таких групп.

Вместе с этим имеется независимость от системы письма или представления информации в анализируемом тексте, значительное повышение точности идентификации языка при небольших объемах текста (от одного до нескольких предложений). Использование ЭВМ при определении языка или языковой группы текста предлагаемым способом не предусматривает сложных алгоритмов и мощных вычислительных средств.

Технический результат достигается тем, что в способе автоматизированного определения языка или языковой группы текста, заключающемся в том, что:

- создают набор идентифицирующих элементов каждого определяемого языка и сохраняют его на носителе информации;

- производят сопоставление каждого идентифицирующего элемента данного набора с соответствующими элементами анализируемого текста,

при выявлении совпадений элементов из набора идентифицирующих элементов с элементами анализируемого текста язык определяют по принадлежности совпавших элементов к определенному языку из данного набора, согласно изобретению создают набор идентифицирующих элементов из групп наиболее употребительных глаголов каждого определяемого языка или языковой группы, а в качестве идентифицирующих элементов используют грамматические формы и семантически значимые части глаголов (корни и основы) каждого определяемого языка и сохраняют его на носителе информации.

Описание изобретения

Предлагаемый способ может быть реализован с помощью программно-аппаратных средств электронно-вычислительных машин и использован при автоматизированном определении языка или языковой группы в системах обработки информации, например, в бюро переводов (с одного языка на другой), отделах по обработке корреспонденции, почтовых отделениях или программах по работе с электронной почтой, библиотеках, программных комплексах по сбору и обработке информации, системах автоматизированного перевода (с одного языка на другой), текстовых процессорах, классификаторах текстовых документов и т.д., а также при определении языка транслитерированных, транскрибированных и записанных специальной (например, шрифтом Брайля) или необычной письменной системой. Например тексты на языках бывшей Югославии могут быть записаны как кириллицей, так и латиницей, а тексты на языках Средней Азии могут также записываться арабской письменностью. Транслитерацию и транскрипцию часто используют люди при общении в компьютерных сетях, например, в Интернете, в силу того, что у корреспондента не всегда есть клавиатура (или соответствующая таблица символов) для переписки на нужном языке.

Для применения предлагаемого способа достаточно иметь (или составить) набор определенных форм нескольких глаголов каждого идентифицируемого языка или языковой группы и не требуется использование словарей, грамматических справочников, лингвистических моделей (или графов), баз данных, статистики встречаемости определенных последовательностей символов и т.д. для каждого идентифицируемого языка.

Суть предлагаемого способа определения языка или языковой группы текста состоит в использовании определенного небольшого набора форм глаголов (или их семантически значимых частей) идентифицируемых языков (по несколько глаголов для каждого языка), который является своеобразной матрицей для определения языка или языковой группы. Данный набор может быть представлен в удобном для хранения, воспроизведения и оперирования виде, например, списком с определенной структурой, таблицей или многомерным массивом, где будут представлены одна или несколько групп глаголов (например, вспомогательные, наиболее употребительные и/или модальные глаголы) каждого идентифицируемого языка, указана связь этих групп с конкретным языком или языковой группой (и/или подгруппой), а также языковой ветвью, семьей и макросемьей по мере необходимости. Такая иерархия набора идентифицирующих элементов позволяет определять языковые ветви, группы или подгруппы без определения самого языка анализируемого текста. Например, для русского языка может быть использована следующая упрощенная языковая иерархия:

русский → восточнославянская группа → балто-славянская ветвь.

При этом данная иерархия может быть разветвленная и многоуровневая (где, например, глаголы близкородственных языков находятся на одном уровне отдельной ветви иерархии), а для каждой языковой группы и каждого языка могут даваться уточнения или более подробная языковая классификация, например, деление на подгруппы, варианты и/или диалекты. К примеру, английский язык относится к западногерманской языковой группе и для него существуют британский, американский и австралийский варианты со множеством диалектов внутри каждого из них.

В качестве идентифицирующих элементов набора могут быть выбраны какие-то конкретные грамматические формы глаголов (например, только формы настоящего времени или только наиболее употребительные) и/или их семантически значимые части (например, корни или основы).

Выбор конкретных форм глаголов зависит от языка, цели и уровня идентификации. Например, для определения только языковой группы и для определения конкретного варианта или диалекта будут использоваться различные наборы глагольных форм. Количество идентифицирующих глаголов для каждого определяемого языка может варьироваться в различных пределах, но для определения языковой группы или подгруппы, а часто и отдельного языка, достаточно взять часто используемые формы (например, настоящего и простого прошедшего времен) наиболее употребительных глаголов, таких как вспомогательные глаголы («быть», «иметь» и т.п.) и глагола «делать». С помощью комбинаций различных групп и форм глаголов идентифицируемых языков и при условии исключения из составляемых наборов совпадающих форм в разных языках и/или языковых группах можно добиться высокой точности идентификации языка или языковой группы текста.

Составление наборов глагольных форм с указанием на соответствие конкретному языку или языковой группе (а также с другими нужными индикаторами) является необходимым и единственным достаточным условием для использования предлагаемого способа (изобретения). Такие наборы могут быть составлены как вручную, так и с помощью ЭВМ в автоматизированном режиме.

Реализация предлагаемого способа сводится к сравнению (сопоставлению) идентифицирующих элементов упомянутого выше набора с соответствующими элементами анализируемого текста. При обнаружении совпадений слов текста (и/или их частей) с соответствующими элементами какой-либо группы из набора идентифицирующих глаголов анализируемый текст ассоциируется с языком, соответствующим данной группе элементов в наборе, и сравнение завершается. При анализе многоязычного текста сопоставление проводится с формами каждой группы идентифицирующих глаголов вне зависимости от того, были ли обнаружены совпадения. А по завершении сравнения всех элементов набора с соответствующими элементами данного текста выдается список всех языков или языковых групп (зависит от цели идентификации), с формами глаголов которых были обнаружены совпадения. Затем результат проведенного анализа текста фиксируется в удобном для восприятия, хранения, воспроизведения (считывания) виде. Впоследствии, на основании полученных результатов, могут быть сделаны уточнения. Например, по количеству и встречаемости совпавших форм глаголов каждого определенного языка может быть вычислен основной или преобладающий язык проанализированного текста.

В целом предлагаемый способ имеет более широкую сферу возможных применений, обеспечивает получение новых технических результатов, обладает рядом преимуществ перед известными способами, решающими аналогичные задачи, и является одним из наиболее рациональных способов определения (идентификации) языковой принадлежности текста на текущий момент времени. Применение предлагаемого способа на практике позволит существенно повысить качество и/или скорость определения языковой принадлежности текста, а технические результаты такого применения позволят существенно сократить затраты и сэкономить ресурсы при определении языка или языковой группы текста.

При реализации предлагаемого способа на ЭВМ значительно сократится занимаемое программой (и ее компонентами) место в памяти ЭВМ и на устройстве хранения информации, а также потребление вычислительных ресурсов. Это позволяет отводить на идентификацию языка гораздо меньше времени, а также освободить часть ресурсов для решения других задач или создавать менее мощные машины или менее требовательные к ресурсам программы. Особенно это важно в области web-приложений, мобильных компьютеров и т.д.

Технический результат применения предлагаемого способа определения языка или языковой группы текста позволяет получить значительный экономический эффект. При сортировке корреспонденции, публикаций и книг на разных языках предложенный способ определения языка или языковой группы может применяться с участием сотрудника, не являющегося специалистом в области филологии и языкознания. При выборе программы перевода (например, для перевода письма или публикации) языковая группа определяется с высокой точностью.

Примеры реализации предлагаемого способа

На фиг. 1 представлена функциональная схема реализации предлагаемого способа со следующими блоками:

1 - Массив идентифицирующих элементов;

2 - Массив элементов анализируемого текста;

3 - Программный блок сопоставления элементов текста с элементами набора;

4 - Результат определения языка.

В качестве примера практического применения и наглядной демонстрации предлагаемого способа описывается упрощенная последовательность операций, используемых при анализе следующего текста (фрагмент типового договора):

«Споры или разногласия, которые могут возникнуть по настоящему договору или в связи с ним и не могут быть решены путем переговоров, подлежат рассмотрению в Арбитражном суде по месту нахождения Ответчика».

Производят следующие операции:

- создание массива данных на основе имеющегося набора идентифицирующих элементов;

- создание массива слов анализируемого текста;

- перебор элементов созданных массивов;

- сопоставление (в процессе перебора) слов анализируемого текста с элементами массива данных, в котором хранится набор идентифицирующих форм глаголов и их соответствия определенным языкам.

Этот набор формируется на основе простого текстового файла со следующей структурой (приводится в сокращенном и упрощенном виде):

В данном примере для определения языка используются грамматические формы нескольких наиболее употребительных глаголов каждого идентифицируемого языка различных языковых групп Европы (без указания на эти группы). С помощью данного набора идентифицирующих элементов можно определить язык текста в случае, если формы глаголов в анализируемом тексте не имеют совпадений со словами других языков. В противном случае язык не будет определен. Для определения принадлежности языка текста к одной из языковых групп структура предлагаемого файла (набора) может быть изменена следующим образом (приводится в сокращенном и упрощенном виде):

Для краткости и наглядности здесь приведены только 4 языка славянской группы, без деления на подгруппы (восточнославянскую, южнославянскую и западнославянскую), которое может быть добавлено при необходимости, а названия языков указаны в скобках для уточнения принадлежности форм глаголов.

В результате анализа приведенного выше текста находят все имеющиеся в предложенном наборе формы, в данном случае глаголов «быть» и «мочь» (если он был включен в этот набор). Таким образом, при сравнении (сопоставлении) элементов текста (слов) и элементов предложенного набора будут выявлены следующие совпадения (выделены полужирным шрифтом):

«Споры или разногласия, которые могут возникнуть по настоящему договору или в связи с ним и не могут быть решены путем переговоров, подлежат рассмотрению в Арбитражном суде по месту нахождения Ответчика.»

Затем на основании первого приведенного выше варианта набора идентифицирующих элементов находится ассоциация с определенным языком, которому соответствуют совпавшие формы глаголов. И поскольку совпадения обнаружились с формами только одной группы глаголов, будет выдано название только одного языка - русского, что исключает возможность ошибки, получения вероятностного результата при определении языка текста либо неопределенности при его идентификации. При использовании второго предложенного варианта набора идентифицирующих элементов определяется языковая группа, к которой относится язык проанализированного текста. Наличие названий самих языков для определения языковой группы необязательны.

В приведенных примерах набора идентифицирующих элементов сознательно исключены совпадающие формы глаголов в близкородственных языках (например, южнославянских: сербского и болгарского), чтобы избежать ошибок определения языка, а также не используются семантически значимые части глаголов (например, корни или основы) для упрощения понимания сути предлагаемого способа. Однако, как явствует из приведенных наборов идентифицирующих элементов, наличие совпадений форм глаголов в языках одной группы (например, славянской) не повлияет на результат, если целью анализа текста является только определение языковой группы. В таком случае указания на конкретный язык могут быть исключены из набора идентифицирующих элементов, а совпадающие формы глаголов в близкородственных языках в него добавлены, чтобы улучшить результат определения языковой группы.

Также из приведенных примеров наборов идентифицирующих элементов следует, что предлагаемый способ определения языка или языковой группы не зависит от используемой в анализируемом тексте системы письма или фиксации информации, так как в самом наборе могут быть использованы различные системы письма и фиксации информации (например, слоговые знаки, идеограммы или комбинации точек шрифта Брайля).

Приведенный пример иллюстрирует практическое применение предлагаемого способа, а также суть использования и структуры описанного выше набора идентифицирующих элементов. От качества составления данного набора зависят эффективность и область применения предлагаемого способа, количество идентифицируемых языков и точность определения языка или языковой группы текста.

Таким образом, осуществляется возможность регулирования функциональности, точности определения и скорости работы с помощью расширения и уточнения или сокращения и упрощения предварительно составляемых наборов форм глаголов идентифицируемых языков или языковых групп. Способ не требует использования словарей определяемых языков и баз данных, а также предварительного обучения (например, изучения грамматики, создания дерева (или модели) грамматических зависимостей, сбора статистики по использованию комбинаций символов и т.д.) или предварительного анализа множества текстов на определяемых языках. Текст может быть представлен в различной воспринимаемой ЭВМ форме (например, в виде изображений символов, идеограмм, комбинаций точек шрифта Брайля и т.д. с применением одной из известных систем письменности, а также передан в виде блока (набора) сигналов, например, звуковых волн, азбуки Морзе и т.п.), что делает предлагаемый способ более универсальным. Количество идентифицирующих элементов и операций сравнения при использовании предлагаемого набора в сотни раз меньше, чем при использовании словарей, лингвистических моделей или последовательностей символов (байтовых последовательностей) известными способами.

Список использованных источников

1. Патент РФ №2251737. «Способ автоматического определения языка распознаваемого текста при многоязычном распознавании», G06K 9/68 (опубл. 10.05.2005).

2. Патент РФ №2500024. «Способ автоматизированного определения языка и(или) кодировки текстового документа», G06F 17/00 (опубл. 27.11.2013).

Способ автоматизированного определения языка или языковой группы текста, заключающийся в том, что:

- производят сопоставление каждого идентифицирующего элемента данного набора с соответствующими элементами анализируемого текста;

- при выявлении совпадений элементов из набора идентифицирующих элементов с соответствующими элементами анализируемого текста язык определяют по принадлежности совпавших элементов к определенному языку в наборе, отличающийся тем, что создают набор идентифицирующих элементов из групп наиболее употребительных глаголов для каждого определяемого языка или языковой группы, а в качестве идентифицирующих элементов используют грамматические формы и семантически значимые части глаголов каждого определяемого языка или языковой группы и сохраняют набор на носителе информации.

Изобретение относится к способу, машиночитаемому носителю данных и системе извлечения данных из структурированного документа. Технический результат заключается в повышении точности формирования объекта структурированного документа за счет дополнительного анализа таблицы и модификации формируемого объекта данных, представленного таблицей, на основе этого анализа.

Построение корпуса сравнимых документов на основе универсальной меры похожести // 2607975

Изобретение относится к способу, машиночитаемому носителю данных и системе для создания корпуса сравнимых документов. Технический результат заключается в возможности автоматического формирования корпуса сравнимых документов.

Создание онтологий на основе анализа текстов на естественном языке // 2606873

Изобретение в целом относится к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение точности и уменьшение времени сравнения текстовых фрагментов за счет обеспечения автоматического сопоставления семантических значений предложений и их частей независимо от способа их синтаксического выражения.

Способ, аппарат и система для интеллектуального управления устройством и самонастраиваемое устройство // 2602982

Изобретение относится к интеллектуальному управлению устройством. Технический результат - простое, удобное и более быстрое управление интеллектуальным устройством за счет использования переносного самонастраиваемого управляющего устройства посредством инициирования на переносном устройстве события ввода на основе информации параметров, включенной в графический интерфейс взаимодействия, отображаемый на данном устройстве.

Использование текстовых сообщений для взаимодействия с электронными таблицами // 2598795

Изобретение относится к средствам ассоциирования текстовых сообщений с электронной таблицей, хранимой в первом вычислительном устройстве. Технический результат заключается в ускорении обработки электронной таблицы на устройствах с малым дисплеем.

Шлюзовой уровень абстракции // 2597507

Изобретение относится к способу и шлюзовому компьютеру для интеграции множества транзакционных услуг. Технический результат заключается в повышении эффективности проведения транзакций за счет преобразования данных в форматы данных для обмена данными с поставщиками и эквайерами.

Способ и система для машинного извлечения и интерпретации текстовой информации // 2592396

Изобретение относится к извлечению и интерпретации информации из неструктурированных текстов на естественных языках, в частности, к машинному извлечению и интерпретации информации в текстовых документах.

Способ и система для глобальной идентификации в коллекции документов // 2591175

Изобретение относится к области обработки естественного языка, а именно к извлечению и поиску информации по коллекции документов. Технический результат - эффективная идентификация информационных объектов, представленных в документе, и информационных объектов в хранилище документов.

Способ обработки целевого сообщения, способ обработки нового целевого сообщения и сервер (варианты) // 2589856

Изобретение относится к области поисковых систем. Технический результат - расширение арсенала технических средств для обработки целевого сообщения.

Предложение релевантных терминов во время ввода текста // 2589727

Изобретение относится к области анализа вводимого текста, а именно к предложению терминов автозавершения, определяемых на основании анализа вводимого текста. Техническим результатом является предоставление для выбора наиболее релевантных терминов на основании определения статистических показателей сочетаемости.

Электронное устройство и способ обработки электронного сообщения // 2608880

Изобретение относится к компьютерной технике, а именно к области электронной почты. Технический результат – обеспечение ускоренной работы пользователя с электронной почтой. Способ обработки электронного сообщения электронным устройством с сенсорным экраном, включающий отображение на экране электронного сообщения; определение категории электронного сообщения; определение предыдущей модели поведения, связанной с получателем электронного сообщения, в зависимости от категории сообщения; получение от сенсорного экрана сигнала взаимодействия, связанного с сообщением; вывод на экран по меньшей мере одного указания действия над сообщением, основанного на предыдущей модели поведения. 2 н. и 34 з.п. ф-лы, 9 ил.

Способ контроля состояния сети передачи данных // 2610287

Изобретение относится к области технической кибернетики. Технический результат заключается в обеспечении оперативного способа контроля состояния сети передачи данных для оперативного обнаружения нештатной ситуации, инцидента, связанных, например, с угрозой нарушения безопасности или с нарушением требований безопасности. Технический результат достигается за счет того, что в способе контроля состояния сети передачи данных для каждого входного параметра задают область определения - диапазон значений, являющийся частью диапазона возможных значений для данного входного параметра, в пределах которого различные значения входного параметра характеризуются общим качественным состоянием, для каждого входного параметра в пределах каждой области его определения задают функцию принадлежности, позволяющую определить нечеткое множество, при этом каждый входной параметр в пределах каждой области его определения посредством функции принадлежности преобразуют в нечеткую переменную, характеризуемую наименованием, нечеткие переменные объединяют во входные лингвистические переменные, формируют выходные лингвистические переменные, вывод о значении каждой входной лингвистической переменной определяется нечеткой переменной. 4 з.п. ф-лы, 7 ил.

Выявление китайской, японской и корейской письменности // 2613847

Изобретение относится к средствам распознавания документов. Техническим результатом является повышение достоверности определения наличия в тексте китайских, японских или корейских символов. В способе определения того, содержит ли текст китайские, японские или корейские символы получают изображение документа. Полученное изображение документа бинаризуется. На бинаризованном изображении документа производится поиск связных компонент. На основе полученных связных компонент выявляется множество фрагментов и определяется ориентация документа. Для каждого фрагмента из множества фрагментов формулируется гипотеза о принадлежности языку. Для гипотезы о принадлежности языку вычисляется оценка вероятности. Из множества фрагментов выбирается подмножество, имеющее наивысшие оценки вероятности. Гипотеза о принадлежности языку проверяется для каждого фрагмента из подмножества фрагментов. Решение о наличии китайских, японских и корейских символов принимается на основе, как минимум, проверки гипотезы о языке фрагментов выбранного подмножества. 3 н. и 17 з.п. ф-лы, 7 ил.

Расширение возможностей информационного поиска // 2618375

Изобретение относится к технологиям информационного поиска. Техническим результатом является повышение эффективности информационного поиска за счет получения результатов, имеющих повышенную степень релевантности, с высокой скоростью. В способе организации поиска в корпусах электронных текстов осуществляют семантико-синтаксический анализ поискового запроса, включая построение ранжированного списка возможных лексических значений для слов запроса, где каждое из лексических значений связано с соответствующим семантическим классом. Составляют список синонимов для лексических значений из ранжированного списка. Ранжируют синонимы для лексических значений и формируют варианты запросов с учетом ранжированных синонимов. Вычисляют оценку соответствия вариантов запросов исходному поисковому запросу. Выполняют поиск текстовых фрагментов в корпусах электронных текстов, удовлетворяющих запросу для вариантов запроса, при этом поиск включает семантико-синтаксический анализ найденных текстовых фрагментов. Вычисляют оценку соответствия лексических значений слов в найденных фрагментах лексическим значениям слов варианта исходного запроса. Ранжируют найденные текстовые фрагменты в соответствии с вычисленной оценкой соответствия. 2 н. и 18 з.п. ф-лы, 14 ил.

Подбор параметров текстового классификатора на основе семантических признаков // 2628431

Изобретение относится в целом к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение точности результатов классификации. Для оценки параметров текстовых классификаторов на основе семантических признаков выполняют с помощью устройства обработки семантико-синтаксический анализ текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов. Выявляют признак текста на естественном языке, извлекаемый на основе набора значений из множества параметров извлечения признаков. Разделяют корпус текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке. Определяют набор значений параметров извлечения признаков с учетом категории обучающей выборки. Оценивают полученный набор значений параметров извлечения признаков с помощью тестовой выборки. 4 н. и 16 з.п. ф-лы, 15 ил.

Классификация текстов на естественном языке на основе семантических признаков // 2628436

Изобретение относится к системам и способам обработки естественного языка. Техническим результатом является повышение точности выполнения классификации текстов, в том числе на различных языках. В способе классификации текстов на естественном языке семантико-синтаксический анализ текста на естественном языке для создания семантической структуры, включающей набор семантических классов. Связывают первый семантический класс с первым значением, отражающим значение некоторого атрибута семантического класса. Выявляют второй семантический класс, связанный с первым семантическим классом заданными семантическими отношениями, и связывают его со вторым значением, отражающим указанный атрибут семантического класса. При этом второе значение определяется применением заданной трансформации к первому значению. Вычисляют признак текста на естественном языке на основе первого значения и второго значения и определяют с помощью модели классификатора с помощью вычисленного признака текста степени соотнесения текста на естественном языке с конкретной категорией из заданного набора категорий. 3 н. и 17 з.п. ф-лы, 15 ил.

Способ классификации текстов, полученных в результате распознавания речи // 2628897

Изобретение относится к средствам для классификации текста и может быть использовано для классификации потока текстовых файлов, полученных в результате распознавания слитной речи в каналах телефонной связи, по заранее неизвестным классам. Технический результат заключается в повышении точности классификации текстовых файлов, полученных в результате распознавания слитной речи в каналах телефонной связи. Способ классификации текста включает первоначальное создание семантического словаря в виде хранилища семантических характеристик слов. Далее распознают устную речь с получением текста. В полученном в результате распознавания устной речи тексте выделяют каждое слово. Находят каждому выделенному слову множество семантических характеристик в семантическом словаре. На основе выявленного множества семантических характеристик определяют семантическую согласованность по меньшей мере одной последовательности слов с получением фразы. Выделяют из текста множество фраз со сравнением их семантических характеристик и выделением по результатам сравнения доминирующей семантической характеристики. Преобразуют множество фраз во множество ключевых фраз, содержащих доминирующую семантическую характеристику. Формируют из первых полученных ключевых фраз и их семантических характеристик класс. 4 ил., 1 табл.

Способ и система семантической обработки текстовых документов // 2630427

Изобретение относится к области автоматизированной обработки массива текстовых документов, а именно к оценке релевантности текстовых документов запросу пользователя с использованием семантических признаков текста и ранжированию по ценности массива текстовых документов. Техническим результатом является повышение полноты и точности обработки текстовых документов. В способе семантической обработки текстовых документов обеспечивают дополнение метаинформации каждого текстового документа, представленного на естественном языке и хранящегося в базе данных вместе с метаинформацией, семантическим образом - дискурсным графом. Получают дискурсный граф естественного языкового запроса пользователя и текстового документа. Выполняют оценку каждого текстового документа относительно запроса пользователя с учетом семантических признаков и предоставляют пользователю ранжированный по ценности массив текстовых документов. 2 н. и 14 з.п. ф-лы, 4 ил., 3 табл.

Способ и система для обработки входных команд пользователя // 2631975

Изобретение относится к средствам обработки естественного языка, а именно активируемые голосом системы управления для устройств. Технический результат заключается в повышении точности обработки пользовательских команд на естественном языке и экономия вычислительных ресурсов. Указанный результат достигается за счет применения способа обработки пользовательских входных команд, выполняемый на компьютерной аппаратуре, который включает: получение пользовательских входных команд; для каждой из множества машинно-исполняемых инструкций: получение множества примерных выражений машинно-исполняемой инструкции; генерирование соответствующего признака для каждого из множества примерных выражений; и анализ множества признаков, связанных с множеством примерных выражений для определения множества шаблонов признаков, содержащих признак для каждого из множества примерных выражений, при этом множество шаблонов признаков используется для преобразования входной команды пользователя в машинно-исполняемую выходную инструкцию, являющуюся одной из множества машинно-исполняемых инструкций. 2 н. и 17 з.п. ф-лы, 7 ил.

Классификация документов с использованием многоуровневых сигнатур текста // 2632408

Изобретение относится к классификации электронных документов для фильтрации незапрашиваемых электронных сообщений (спама) и детекции поддельных сетевых документов. Техническим результатом является увеличение скорости вычислений и уменьшение требуемого объема памяти при определении сигнатуры текста без снижения точности сравнения документов по их сигнатурам. Для определения сигнатуры текста целевого документа, ограниченной предварительно определенными нижней и верхней границами, отбирают множество лексем текста путем отбора предварительного множества лексем текста, определения счетчика предварительного множества лексем и, когда предварительное множество лексем превышает заданный порог, обрезания этого множества для формирования отобранного множества лексем так, чтобы отобранное множество не превышало порога. Определяют размер фрагмента сигнатуры в соответствии с верхней и нижней границами и в соответствии со счетчиком отобранного множества. Определяют множество фрагментов сигнатуры в соответствии с хешем отдельной лексемы отобранного множества, причем каждый фрагмент содержит последовательность символов, длина которой выбрана равной размеру фрагмента. Выполняют конкатенацию множества фрагментов для формирования сигнатуры текста. 4 н. и 18 з.п. ф-лы, 18 ил., 3 табл.