Выявление словосочетаний в текстах на естественном языке



Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке
Выявление словосочетаний в текстах на естественном языке

 


Владельцы патента RU 2618374:

Общество с ограниченной ответственностью "Аби ИнфоПоиск" (RU)

Изобретение относится к средствам обработки естественного языка. Технический результат заключается в повышении эффективности решения задач обработки текстов на естественном языке. Указанный результат достигается за счет выполнения этапов способа выявления словосочетаний в текстах на естественном языке. При этом используют вычислительное устройство, с помощью которого выполняют семантико-синтаксический анализ текста на естественном языке для получения множества семантических структур. Далее формируют исходный список сочетаний слов с учетом отношений, определенных семантическими структурами. Составляют список словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов, где применение эвристического фильтра основано на использовании метрики качества, представляющей функцию от частот семантических классов и частоты отношений между словами в составе словосочетания. Используют список словосочетаний для выполнения операции обработки естественного языка. 3 н. и 22 з.п. ф-лы, 15 ил.

 

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее - к системам и способам обработки естественного языка.

УРОВЕНЬ ТЕХНИКИ

[0002] В настоящем документе термин «словосочетание» означает семантически и грамматически значимое сочетание двух или более слов, которое в выбранном текстовом корпусе имеет частоту встречаемости, превышающую определенный порог. В настоящем документе термин «словосочетание» относится к представлению словосочетания, в котором по меньшей мере некоторые слова могут быть представлены своими семантическими классами. Словари словосочетаний и словосочетания могут использоваться в различных методах обработки естественного языка, таких как извлечение информации, а также в методах перевода естественного языка.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или несколькими аспектами настоящего изобретения описанный в примере способ может включать: выполнение вычислительным устройством семантико-синтаксического анализа текста на естественном языке для формирования множества семантических структур; формирование исходного списка сочетаний слов с учетом отношений, определенных семантическими структурами; составление списка словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов; и использование этого списка словосочетаний для выполнения операции обработки естественного языка.

[0004] В соответствии с одним или несколькими аспектами настоящего изобретения пример системы может включать: память; процессор, соединенный с памятью, причем этот процессор настроен на выполнение семантико-синтаксического анализа текста на естественном языке с целью получения множества семантических структур; формирование исходного списка сочетаний слов с учетом отношений, определенных семантическими структурами; составление списка словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов; и использование этого списка словосочетаний для выполнения операции обработки естественного языка.

[0005] В соответствии с одним или несколькими аспектами настоящего изобретения пример машиночитаемого энергонезависимого носителя данных может содержать исполняемые команды, при выполнении которых вычислительным устройством это вычислительное устройство выполняет операции, включающие: семантико-синтаксический анализ текста на естественном языке для получения множества семантических структур; формирование исходного списка сочетаний слов с учетом определенных семантическими структурами отношений; получение списка словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов; и использование этого списка словосочетаний для выполнения операции обработки естественного языка.

[0006] Технический результат от внедрения изобретения состоит в повышении эффективности решения задач обработки текстов на естественном языке за счет повышения точности результата семантико-синтаксического анализа, увеличения скорости процессов обработки, компактного хранения данных.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0007] Настоящее изобретение иллюстрируется с помощью примеров, а не способом ограничения, и может быть лучше понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:

[0008] На Фиг. 1 показана блок-схема описанного в примере способа выявления словосочетаний в текстах на естественном языке в соответствии с одним или несколькими аспектами настоящего изобретения;

[0009] На Фиг. 2 приведена блок-схема описанного в примере способа получения «исходного» списка сочетаний слов для данного текстового корпуса в соответствии с одним или несколькими аспектами настоящего изобретения;

[00010] На Фиг. 3 показана блок-схема описанного в примере способа применения одного или нескольких эвристических фильтров к списку словосочетаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00011] На Фиг. 4 приведена блок-схема одного описанного в пояснительном примере способа выполнения семантико-синтаксического анализа предложения на естественном языке 400 в соответствии с одним или несколькими аспектами настоящего изобретения.

[00012] На Фиг. 5 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или несколькими аспектами настоящего изобретения;

[00013] На Фиг. 6 схематически показаны описания языка, представляющие модель естественного языка в соответствии с одним или несколькими аспектами настоящего изобретения;

[00014] На Фиг. 7 схематически показаны примеры морфологических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00015] На Фиг. 8 схематически показаны примеры синтаксических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00016] На Фиг. 9 схематически показаны примеры семантических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00017] На Фиг. 10 схематически показаны примеры лексических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00018] На Фиг. 11 схематически показаны примеры структур данных, которые могут использоваться одним или несколькими способами, реализованными в соответствии с одним или несколькими аспектами настоящего изобретения;

[00019] На Фиг. 12 схематически показан пример графа обобщенных составляющих в соответствии с одним или несколькими аспектами настоящего изобретения;

[00020] На Фиг. 13 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 12;

[00021] На Фиг. 14 приведена семантическая структура, соответствующей синтаксической структуре, показанной на Фиг. 13;

[00022] На Фиг. 15 показана схема описанного в примере вычислительного устройства, в котором реализуются способы, описанные в этом документе.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[00023] Приводится описание способов и систем выявления словосочетаний в текстах на естественном языке. В этом документе термин «словосочетание» означает семантически и грамматически значимое сочетание двух или более слов (или их соответствующих семантических или грамматических классов), которое в выбранном текстовом корпусе имеет частоту встречаемости, превышающую определенный порог. Словари словосочетаний и словосочетания могут использоваться в различных методах обработки естественного языка, таких как извлечение информации, а также в методах перевода текстов на естественном языке. В некоторых вариантах реализации методов автоматизированного перевода может использоваться словарь параллельных словосочетаний (словосочетаний), в котором параллельное словосочетание (словосочетание) означает комбинацию двух или более словосочетаний (словосочетаний), приведенных на двух или более естественных языках, имеющих одинаковые или близкие значения в соответствующих естественных языках.

[00024] Несмотря на то, что анализ текстового корпуса для получения списка сочетаний слов, имеющих частоту, превышающую определенный порог, кажется простой, порой даже тривиальной задачей, такой список обязательно включает значительное количество «ложных результатов», например, часто встречающиеся семантически и (или) грамматически бессмысленные сочетания слов.

[00025] Аспекты настоящего раскрытия изобретения устраняют отмеченные выше и другие недостатки путем предоставления систем и способов выявления словосочетаний в текстах на естественном языке. Системы и методы, работающие в соответствии с одним или несколькими аспектами настоящего изобретения, развиваются путем применения различных эвристических фильтров, предназначенных для обнаружения семантически и (или) грамматически бессмысленных комбинаций слов.

[00026] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.

[00027] В настоящем документе термин «вычислительное устройство» означает устройство обработки данных, имеющее универсальный процессор, память и по меньшей мере один коммуникационный интерфейс. Примерами вычислительных устройств, которые могут использовать описанные в этом документе способы, являются, помимо прочего, настольные компьютеры, портативные компьютеры, планшетные компьютеры и смартфоны.

[00028] На Фиг. 1 приведена блок-схема пояснительного примера способа 100 для выявления словосочетаний в текстах на естественном языке в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 100 и (или) каждая из его отдельных функций, процедур, подпрограмм или операций может быть реализован с помощью одного или нескольких процессоров вычислительного устройства (например, вычислительного устройства 1000 на Фиг. 15), в котором реализован этот способ. В некоторых реализациях способ 100 может быть реализован в одном потоке обработки. При альтернативном подходе способ 100 может быть реализован с использованием двух или более потоков обработки, при этом в каждом потоке реализована одна или несколько отдельных функций, процедур, подпрограмм или операций этого способа. В иллюстративном примере потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с помощью семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу.

[00029] В блоке 110 вычислительное устройство, в котором реализован этот способ, может выполнять синтаксический и семантический анализ множества предложений на естественных языках, содержащихся в предоставленном текстовом корпусе 105. В результате синтаксического и семантического анализа могут быть созданы одна или несколько семантических структур, представляющих каждое предложение на естественном языке. В некоторых вариантах реализации изобретения устройство обработки может выбрать из нескольких семантических структур, полученных путем синтаксического и семантического анализа, ту семантическую структуру, которая имеет наилучшее значение априорной оценки, что описано более подробно ниже со ссылками на Фиг. 11.

[00030] В блоке 120 вычислительное устройство может вычислять различные статистические оценки, связанные с семантическими структурами, созданными при синтаксическом и семантическом анализе. Такие статистики могут включать частоты встречаемости в текстовом корпусе различных комбинаций семантических классов, выявленные при анализе, количество документов, содержащих каждое выявленное сочетание и т.д. В некоторых реализациях изобретения, могут рассматриваться только сочетания определенного числа элементов (например, три семантических класса).

[00031] В блоке 130 вычислительное устройство может создавать для каждого предложения исходного текста «сырой» исходный список сочетаний слов, при этом каждое такое сочетание включает два или более слова, которые связаны грамматически и (или) семантически, что более подробно описано ниже. Создание «сырого» списка сочетаний слов более подробно описано ниже со ссылками на Фиг. 2.

[00032] В блоке 140 вычислительное устройство может объединить в единый список несколько списков сочетаний слов, которые были получены для множества предложений исходного текстового корпуса. Такой процесс объединения может включать отбрасывание дубликатов и определения частоты каждого сочетания и (или) некоторые другие статистики, что схематически показано блоком 150 и более подробно описано ниже.

[00033] В блоке 160 вычислительное устройство может применить один или несколько эвристических фильтров к полученному списку сочетаний слов для удаления семантически и (или) грамматически бессмысленных сочетаний слов из списка, что более подробно описано ниже. В некоторых реализациях изобретения результирующий список может быть преобразован в нужный формат (например, в формат, совместимый с целевым приложением). Применение эвристических фильтров более подробно описано ниже со ссылками на Фиг. 3.

[00034] В блоке 170 вычислительное устройство может использовать полученный список словосочетаний для выполнения различных задач обработки естественного языка. В иллюстративном примере список словосочетаний может использоваться в качестве основы для составления списка параллельных словосочетаний, используемых в процессе автоматизированного перевода естественного языка.

[00035] Некоторые операции способа 100 раскрываются ниже в настоящем описании более подробно со ссылками на Фиг. 2-14.

[00036] На Фиг. 2 приведена блок-схема иллюстративного примера реализации способа 200 для формирования исходного «сырого» списка словосочетаний для данного текстового корпуса в соответствии с одним или несколькими аспектами настоящего изобретения. В некоторых реализациях изобретения способ 200 можно использовать для выполнения операций, описанных выше в настоящем описании со ссылкой на блок 130 на Фиг. 1. Способ (200) и (или) каждая из его отдельных функций, процедур, подпрограмм или операций могут быть реализованы с помощью одного или нескольких процессоров вычислительного устройства (например, вычислительного устройства 1000 на Фиг. 15), в котором реализован этот способ. В некоторых реализациях способ 200 может быть реализован в одном потоке обработки. При альтернативном подходе способ 200 может быть реализован с помощью двух или более потоков обработки, при этом каждый поток выполняет одну или несколько отдельных функций, стандартных программ, подпрограмм или операций данного способа. В иллюстрирующем примере реализующие способ 200 потоки обработки могут быть синхронизированы (например, с помощью семафоров, критических секций и (или) других механизмов синхронизации потоков). В качестве альтернативы, реализующие способ 200 потоки обработки могут выполняться асинхронно по отношению друг к другу.

[00037] В блоке 210 вычислительное устройство, в котором реализован способ, может выполнять синтаксический и семантический анализ множества предложений на естественном языке, содержащихся в текстовом корпусе 205. В процессе синтаксического и семантического анализа могут быть созданы одна или несколько семантических структур, представляющих каждое предложение на естественном языке. В иллюстративном примере такие семантические структуры могут быть представлены деревьями. В некоторых вариантах реализации изобретения устройство обработки может выбрать из нескольких семантических структур, полученных путем синтаксического и семантического анализа, ту семантическую структуру, которая имеет наилучшее значение априорной оценки, что описано более подробно ниже со ссылками на Фиг. 11.

[00038] В блоке 220 вычислительное устройство может вычислять различные вспомогательные виды статистики для выбранного текстового корпуса. В некоторых реализациях изобретения вычислительное устройство может для каждого предложения вычислять частоту его встречаемости в текстовом корпусе, чтобы обнаружить повторяющиеся фрагменты текста (например, стандартную преамбулу для документов определенного типа). Полученная в результате частота встречаемости словосочетания, обнаруженного в повторяющемся фрагменте текста, может быть уменьшена до числа, отражающего частоту повторения самого фрагмента текста, чтобы уравновесить воздействие таких повторяющихся фрагментов текста на окончательный список словосочетаний.

[00039] Дополнительно или альтернативно вычислительное устройство может для каждого предложения определять группы семантических классов, которые связаны друг с другом в соответствующих семантических структурах. В некоторых вариантах реализации изобретения могут рассматриваться только отношения определенных типов (например, синтаксические отношения). Альтернативно или дополнительно могут рассматриваться только группы, содержащие определенное количество элементов (например, три семантических класса). Для каждой группы семантических классов можно определить ее частоту встречаемости в текстовом корпусе. Редко встречающиеся группы семантических классов (то есть, группы, имеющие частоту ниже определенного порога для частоты встречаемости группы) могут использоваться на последующих этапах способа для отбрасывания сочетаний слов с низкой частотой. В иллюстративном примере могут отбрасываться любые сочетания слов, которые содержат низкочастотную группу семантических классов.

[00040] В блоках 230-260 вычислительное устройство может обходить каждое семантическое дерево из множества семантических деревьев, построенных для текстового корпуса. В некоторых вариантах реализации изобретения каждое семантическое дерево может быть пройдено в направлении снизу-вверх, то есть, от конечных узлов (которые также называют «листьями») к корню.

[00041] Для каждого узла семантического дерева вычислительное устройство в блоке 240 может составить список комбинаций слов, содержащих слова, соответствующие дочерним узлам текущего узла. Кроме того, комбинации слов, которые ранее были найдены для дочерних узлов, могут добавляться в список комбинаций слов, соответствующих текущему узлу.

[00042] В некоторых вариантах реализации изобретения могут быть применяться различные ограничения на размер словосочетания и (или) структуры для уменьшения количества полученных сочетаний слов. В первом иллюстративном примере размер сочетаний слов может быть ограничен определенным количеством слов (например, пятью словами). В другом иллюстративном примере размер пропуска в линейном порядке слов, содержащихся в сочетании слов, может быть ограничен определенным количеством слов.

[00043] В блоке 270 вычислительное устройство может объединить в одном списке несколько списков комбинаций слов, которые были получены для множества предложений исходного текстового корпуса. Процесс слияния может включать отбрасывание дубликатов и определение частоты каждого сочетания и (или) другой статистики, что схематически показано блоком 280. В различных иллюстративных примерах такая статистика может включать для каждого сочетания слов: количество вхождений сочетания слов в текстовый корпус, включая или исключая вхождения обнаруженных повторяющихся фрагментов текста; количество документов, которые содержат это сочетание слов; и (или) число различных семантических деревьев, соответствующих этому сочетанию слов.

[00044] В ответ на завершение описанных в настоящем документе операций со ссылками на блок 240 способ может завершиться. Результаты применения способа 200 могут включать «сырой» исходный список сочетаний слов 290, сопровождаемый различными статистиками 295.

[00045] На Фиг. 3 приведена блок-схема иллюстративного примера способа 300 применения одного или нескольких эвристических фильтров к списку сочетаний слов, полученных описанным выше способом 200, в соответствии с одним или несколькими аспектами настоящего изобретения. В некоторых вариантах реализации изобретения способ 300 может использоваться для выполнения операций, описанных выше со ссылкой на блок 160 на Фиг. 1. Способ 300 и (или) каждая из его отдельных функций, процедур, подпрограмм или операций могут быть реализованы с помощью одного или нескольких процессоров вычислительного устройства (например, вычислительного устройства 1000 на Фиг. 15), в котором реализован этот способ. В некоторых вариантах реализации способ 300 может выполняться в одном потоке обработки. При альтернативном подходе способ 300 может быть реализован двумя или более потоками обработки, при этом в каждом потоке реализована одна или несколько отдельных функций, процедур, подпрограмм или операций этого способа. В иллюстративном примере потоки обработки, в которых реализован способ 300, могут быть синхронизированы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). В качестве альтернативы, потоки обработки, реализующие способ 300, могут выполняться асинхронно по отношению друг к другу.

[00046] Способ 300 включает несколько операций фильтрации. Каждая операция фильтрации получает список комбинаций слов, полученный предыдущей операцией фильтрации, и удаляет из списка словосочетания, которые не соответствуют параметрам фильтра. В некоторых вариантах реализации изобретения один или более фильтров могут проверять не только отдельные сочетания слов, но и их соответствующие статистики из входного списка, а также группы словосочетаний во входном списке, при этом порядок выполнения операций фильтрации может повлиять на результаты, получаемые этим способом.

[00047] В блоке 310 вычислительное устройство, в котором реализован этот способ, может оценивать определенные атрибуты словосочетания 305, полученные как исходные данные для данного способа. Если в иллюстративном примере некоторые вхождения слов в сочетание включают заглавные буквы, а другие случаи вхождения - только строчные символы, то атрибут капитализации может быть удален для всех вхождений этого сочетания слов. Другой иллюстративный пример: если корень синтаксического поддерева, соответствующего данному словосочетанию, преимущественно связан с остальной частью синтаксического дерева отношением особого типа, то могут отбрасываться вхождения данного сочетания слов, которые имеют другой тип отношения к корню. В еще одном иллюстративном примере могут отбрасываться сочетания слов, содержащие слова, имеющие неоднозначные грамматические характеристики.

[00048] В блоке 315 вычислительное устройство может удалить из списка, созданного предыдущей операцией фильтрации, сочетания слов, содержащие стоп-слова, заданные грамматические категории и (или)синтаксические отношения. В одном иллюстративном примере вычислительное устройство может удалять из списка, созданного предыдущей операцией фильтрации, сочетания слов, содержащие стоп-слова, т.е. слова из первого списка, в произвольной позиции в этом сочетании слов. В другом иллюстративном примере вычислительное устройство может удалять из списка, созданного предыдущей операцией фильтрации, словосочетания, содержащие стоп-слова из второго списка в корневой позиции словосочетания. В еще одном иллюстративном примере вычислительное устройство может удалять из списка, полученного в предыдущей операции фильтрации, сочетания слов, содержащие слова некоторых стоп-категорий, например, цифры, местоимения и т.д. В еще одном иллюстративном примере вычислительное устройство может удалять из списка, полученного в предыдущей операции фильтрации, сочетания слов, содержащие отношения, содержащиеся в третьем списке. В еще одном иллюстративном примере вычислительное устройство может удалять из списка, созданного предыдущей операцией фильтрации, сочетания слов, содержащие отношения, упомянутые в четвертом списке, определяющем запрещенные отношения слов для словосочетаний, состоящих из двух слов.

[00049] В блоке 320 вычислительное устройство может заменять некоторые сочетания слов в списке, полученном предыдущей операции фильтрации, их обобщенными словосочетаниями. В иллюстративном примере сочетания слов «city of Moscow», «city of New York», и «City of Paris» могут быть заменены их обобщенным словосочетанием «city CITY_BY_NAME». Обобщенное словосочетание может включать одно или несколько слов (например, «city» в приведенном выше примере) и (или) одно или несколько идентификаторов семантических классов (например, CITY_BY_NAME в приведенном выше примере). Если обобщенное словосочетание затем используется для анализа произвольного текста, то все словосочетания, которые имеют те же самые элементы, встречающиеся в том же порядке, будут рассматриваться как подходящее словосочетание. Обозначения семантических классов используемые при создании словосочетаний, могут быть взяты из заранее определенной иерархии семантических классов, что позволяет не включать в список обобщенные версии некоторых конкретных сочетаний слов (например, «George Washington Bridge» не будет преобразовываться в вид «FORMER_PRESIDENT_BY_NAME bridge»).

[00050] В блоке 325 вычислительное устройство может удалять редко встречающиеся сочетания слов из списка, созданного предыдущей операцией фильтрации. В иллюстративном примере вычислительное устройство может удалить из списка, полученного на предыдущей операции фильтрации, те сочетания слов, частота встречаемости которых в текстовом корпусе оказалась ниже определенного нижнего порога. В иллюстративном примере вычислительное устройство также может удалить из списка, полученного на предыдущей операции фильтрации, сочетания слов, для которых число документов в текстовом корпусе, содержащих такие сочетания слов, оказалось ниже определенного нижнего порога числа документов.

[00051] В блоке 330 вычислительное устройство может удалить из списка, созданного предыдущей операцией фильтрации, сочетания слов, которые содержатся в словаре известных сочетаний слов, чтобы этот способ создавал только новые сочетания слов.

[00052] В блоке 335 вычислительное устройство может удалить из списка, полученного на предыдущей операции фильтрации, сочетания слов, которые полностью содержатся в других известных сочетаниях слов (например, сочетание слов «Nobel Реасе» полностью содержится в сочетании слов «Nobel Реасе Prize», следовательно, первое сочетание слов будут удалено из списка). В некоторых реализациях изобретения вычислительное устройство может сравнивать частоты как суперсочетаний, так и субсочетаний и удалять субсочетание, если разность двух частот окажется ниже определенного порогового значения для разности частот.

[00053] В блоке 340 вычислительное устройство может удалять из списка, полученного на предыдущей операции фильтрации, сочетания слов, которые полностью содержат другие известные сочетания слов (например, сочетание слов «Резолюция Генеральной Ассамблеи ООН» полностью содержит сочетание слов «Генеральная Ассамблея ООН», следовательно, первое сочетание слов будет удалено из списка).

[00054] В блоке 345 вычислительное устройство может повторить с различным набором параметров фильтрации удаление сочетаний слов, содержащих слова, связанные с различными списками слов, помеченных как стоп-слова, грамматических категорий и синтаксических отношений, подобных операции фильтрации, описание которой приведено выше со ссылкой на блок 315.

[00055] В блоке 350 вычислительное устройство может удалить из списка, созданного предыдущей операцией фильтрации, сочетания слов, которые имеют разрывы, превышающие определенный порог в линейном порядке слов.

[00056] В блоке 355 вычислительное устройство может определить удаление из списка, созданного предыдущей операцией фильтрации, сочетаний слов, которые имеют значения определенной метрики качества ниже предопределенного порога значения качества. В иллюстративном примере метрика качества может быть представлена в виде разности между фактической частотой и ожидаемой частотой для данного сочетания слов. Ожидаемая частота может быть определена как произведение частот для нескольких связанных с текстовым корпусом семантических структур, для семантических классов, представляющих отдельные слова в сочетании слов и частот отношений между словами в сочетании слов.

[00057] Список, полученный с помощью эвристического фильтра в блоке 355, можно преобразовать в нужный формат (например, в формат, совместимый с целевым приложением) для вывода результирующего списка словосочетаний 360.

[00058] На Фиг. 4 приведена блок-схема одного иллюстративного примера реализации способа 400 для выполнения семантико-синтаксического анализа предложения на естественном языке 412 в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 400 может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах подлежащие обработке способом 400 предложения на естественном языке могут извлекаться из одного или нескольких электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR) для получения текстов, соответствующих этим документам. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.

[00059] В блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для установления морфологических значений слов, входящих в состав предложения. В настоящем документе "морфологическое значение" слова означает одну или несколько лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория (часть речи) слова и один или более морфологических и грамматических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и (или) совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 5.

[00060] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ предложения 212. Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения 212, с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения 212 для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.

[00061] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев предложения. Среди различных синтаксических деревьев на основе определенной функции оценки с учетом совместимости лексических значений слов исходного предложения, поверхностных отношений, глубинных отношений и т.д. может быть отобрано одно или несколько лучших синтаксических деревьев, соответствующих предложению 212.

[00062] В блоке 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может включать множество узлов, соответствующих семантическим классам и также может включать множество дуг, соответствующих семантическим отношениям (более подробное описание см. ниже в настоящем документе).

[00063] На Фиг. 5 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения. Пример лексико-морфологической структуры 500 может включать множество пар "лексическое значение - грамматическое значение" для примера предложения. В качестве иллюстративного примера, "11" может быть соотнесено с лексическим значением "shall" 512 и "will" 514. Грамматическим значением, соотнесенным с лексическим значением 512, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. Грамматическим значением, соотнесенным с лексическим значением 514, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.

[00064] Фиг. 6 схематически иллюстрирует используемые языковые описания 610, в том числе морфологические описания 201, лексические описания 203, синтаксические описания 202 и семантические описания 204, а также отношения между ними. Среди них морфологические описания 201, лексические описания 203 и синтаксические описания 02 зависят от языка. Набор языковых описаний 610 представляет собой модель определенного естественного языка.

[00065] В качестве иллюстративного примера определенное лексическое значение в лексических описаниях 203 может быть соотнесено с одной или несколькими поверхностными моделями синтаксических описаний 202, соответствующих данному лексическому значению. Определенная поверхностная модель синтаксических описаний 202 может быть соотнесена с глубинной моделью семантических описаний 204.

[00066] На Фиг. 7 схематически иллюстрируются несколько примеров морфологических описаний. В число компонентов морфологических описаний 201 могут входить: описания словоизменения 710, грамматическая система 720, описания словообразования 730 и другие. Грамматическая система 720 включает набор грамматических категорий, таких как часть речи, падеж, род, число, лицо, возвратность, время, вид и их значения (так называемые "граммемы"), в том числе, например, прилагательное, существительное или глагол; именительный, винительный или родительный падеж; женский, мужской или средний род и т.д. Соответствующие граммемы могут использоваться для составления описания словоизменения 710 и описания словообразования 730.

[00067] Описание словоизменения 710 определяет формы данного слова в зависимости от его грамматических категорий (например, падеж, род, число, время и т.д.) и в широком смысле включает в себя или описывает различные возможные формы слова. Описание словообразования 730 определяет, какие новые слова могут быть образованы от данного слова (например, сложные слова).

[00068] В соответствии с одним из аспектов настоящего изобретения при установлении синтаксических отношений между элементами исходного предложения могут использоваться модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие более низких уровней. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (родительским) для построения синтаксических описаний 202 исходного предложения.

[00069] На Фиг. 8 приведены примеры синтаксических описаний. В число компонентов синтаксических описаний 202 могут входить, среди прочего, поверхностные модели 410, описания поверхностных позиций 420, описание референциального и структурного контроля 456, описание управления и согласования 440, описание недревесного синтаксиса 450 и правила анализа 460. Синтаксические описания 202 могут использоваться для построения возможных синтаксических структур исходного предложения на заданном естественном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других факторов.

[00070] Поверхностные модели 410 могут быть представлены в виде совокупностей одной или нескольких синтаксических форм («синтформ» 412) для описания возможных синтаксических структур предложений, входящих в состав синтаксического описания 202. В целом, лексическое значение слова на естественном языке может быть связано с поверхностными (синтаксическими) моделями 410. Поверхностная модель может представлять собой составляющие, которые возможны, если лексическое значение выступает в роли "ядра". Поверхностная модель может включать набор поверхностных позиций дочерних элементов, описание линейного порядка и (или) диатезу. В настоящем документе "диатеза" означает определенное отношение между поверхностными и глубинными позициями и их семантическими ролями, выражаемыми посредством глубинных позиций. Например, диатеза может быть выражаться залогом глагола: если субъект является агентом действия, глагол в активном залоге, а когда субъект является направлением действия, это выражается пассивным залогом глагола.

[00071] В модели составляющих может использоваться множество поверхностных позиций 415 дочерних составляющих и описаний их линейного порядка 416 для описания грамматических значений 414 возможных заполнителей этих поверхностных позиций. Диатезы 417 представляют собой соответствия между поверхностными позициями 415 и глубинными позициями 514 (как показано на Фиг. 9). Коммуникативные описания 480 описывают коммуникативный порядок в предложении.

[00072] Описание линейного порядка (416) может быть представлено в виде выражений линейного порядка, отражающих последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. В число выражений линейного порядка могут входить наименования переменных, имена поверхностных позиций, круглые скобки, граммемы, оператор «or» (или) и т.д. В качестве иллюстративного примера описание линейного порядка простого предложения "Boys play football" можно представить в виде "Subject Core Object_Direct" (Подлежащее - Ядро - Прямое дополнение), где Subject (Подлежащее), Core (Ядро) и Object_Direct (Прямое дополнение) представляют собой имена поверхностных позиций 415, соответствующих порядку слов.

[00073] Коммуникативные описания 480 могут описывать порядок слов в синтформе 412 с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описания управления и согласования 440 может включать правила и ограничения на грамматические значения присоединяемых составляющих, которые используются во время синтаксического анализа.

[00074] Описания недревесного синтаксиса 450 могут создаваться для отражения различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания недревесного синтаксиса 450 могут, среди прочего, включать описание эллипсиса 452, описания согласования 454, а также описания референциального и структурного контроля 430.

[00075] Правила анализа 460 могут описывать свойства конкретного языка и использоваться в рамках семантического анализа. Правила анализа 460 могут включать правила вычисления семантем 462 и правила нормализации 464. Правила нормализации 464 могут использоваться для описания трансформаций семантических структур, которые могут отличаться в разных языках.

[00076] На Фиг. 9 приведен пример семантических описаний. Компоненты семантических описаний 204 не зависят от языка и могут, среди прочего, включать семантическую иерархию 510, описания глубинных позиций 520, систему семантем 530 и прагматические описания 540.

[00077] Ядро семантических описаний может быть представлено семантической иерархией 510, в которую могут входить семантические понятия (семантические сущности), также называемые семантическими классами. Последние могут быть упорядочены в иерархическую структуру, отражающую отношения "родитель-потомок". В целом, дочерний семантический класс может унаследовать одно или более свойств своего прямого родителя и других семантических классов-предков. В качестве иллюстративного примера семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и родительским семантическим классом для классов GAS, (Газ), LIQUID (Жидкость), METAL (Металл), WOOD_MATERIAL (Древесина) и т.д.

[00078] Каждый семантический класс в семантической иерархии 510 может сопровождаться глубинной моделью 512. Глубинная модель 512 семантического класса может включать множество глубинных позиций 514, которые могут отражать семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей. Глубинная модель 512 также может включать возможные семантические классы, выступающие в роли заполнителей глубинных позиций. Глубинные позиции (514) могут выражать семантические отношения, в том числе, например, "agent" (агенс), "addressee" (адресат), "instrument" (инструмент), "quantity" (количество) и т.д. Дочерний семантический класс может наследовать и уточнять глубинную модель своего непосредственного родительского семантического класса.

[00079] Описания глубинных позиций 520 отражают семантические роли дочерних составляющих в глубинных моделях 512 и могут использоваться для описания общих свойств глубинных позиций 514. Описания глубинных позиций 520 также могут содержать грамматические и семантические ограничения в отношении заполнителей глубинных позиций 514. Свойства и ограничения, связанные с глубинными позициями 514 и их возможными заполнителями в различных языках, могут быть в значительной степени подобными и зачастую идентичными. Таким образом, глубинные позиции 514 не зависят от языка.

[00080] Система семантем 530 может представлять собой множество семантических категорий и семантем, которые представляют значения семантических категорий. В качестве иллюстративного примера семантическая категория "DegreeOfComparison" (Степень сравнения) может использоваться для описания степени сравнения прилагательных и включать следующие семантемы: "Positive" (Положительная), "ComparativeHigherDegree" (Сравнительная степень сравнения), "SuperlativeHighestDegree" (Превосходная степень сравнения) и другие. В качестве еще одного иллюстративного примера семантическая категория "RelationToReferencePoint" (Отношение к точке) может использоваться для описания порядка (пространственного или временного в широком смысле анализируемых слов), как, например, до или после точки или события, и включать семантемы "Previous" (Предыдущий) и "Subsequent" (Последующий). В качестве еще одного иллюстративного примера семантическая категория "EvaluationObjective" (Оценка) может использоваться для описания объективной оценки, как, например, "Bad" (Плохой), "Good" (Хороший) и т.д.

[00081] Система семантем 530 может включать независимые от языка семантические атрибуты, которые могут выражать не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы могут использоваться для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в естественном языке. По своему целевому назначению и использованию системы семантем могут разделяться на категории, например, грамматические семантемы 532, лексические семантемы 534 и классифицирующие грамматические (дифференцирующие) семантемы 536.

[00082] Грамматические семантемы 532 могут использоваться для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы 534 могут описывать конкретные свойства объектов (например, "being flat" (быть плоским) или "being liquid" (являться жидкостью)) и использоваться в описаниях глубинных позиций 520 как ограничение заполнителей глубинных позиций (например, для глаголов "face (with)" (облицовывать) и "flood" (заливать), соответственно). Классифицирующие грамматические (дифференцирующие) семантемы 536 могут выражать дифференциальные свойства объектов внутри одного семантического класса. В качестве иллюстративного примера в семантическом классе HAIRDRESSER (ПАРИКМАХЕР) семантема <<RelatedToMen>> (Относится к мужчинам) присваивается лексическому значению "barber" в отличие от других лексических значений, которые также относятся к этому классу, например, «hairdresser», «hairstylist» и т.д. Используя данные независимые от языка семантические свойства, которые могут быть выражены в виде элементов семантического описания, в том числе семантических классов, глубинных позиций и семантем, можно извлекать семантическую информацию в соответствии с одним или более аспектами настоящего изобретения.

[00083] Прагматические описания 540 позволяют назначать определенную тему, стиль или жанр с текстам и объектам семантической иерархии 510 (например, «Экономическая политика», «Внешняя политика», «Юриспруденция», «Законодательство», «Торговля», «Финансы» и т.д.). Прагматические свойства также могут выражаться семантемами. В качестве иллюстративного примера прагматический контекст может приниматься во внимание при семантическом анализе.

[00084] На Фиг. 10 приведен пример лексических описаний. Лексические описания (203) представляют собой множество лексических значений 612 конкретного естественного языка. Для каждого лексического значения 612 имеется связь 602 с его независимым от языка семантическим родителем для того, чтобы указать положение какого-либо заданного лексического значения в семантической иерархии 510.

[00085] Лексическое значение 612 в лексико-семантической иерархии 510 может быть соотнесено с поверхностной моделью 410, которая в свою очередь через одну или несколько диатез 417 может быть соотнесена с соответствующей глубинной моделью 512. Лексическое значение 612 может наследовать семантический класс своего родителя и уточнять свою глубинную модель 512.

[00086] Поверхностная модель 410 лексического значения может включать одну или несколько синтаксических форм 412. Синтформа 412 поверхностной модели 410 может включать одну или несколько поверхностных позиций 415, в том числе соответствующие описания их линейного порядка 416, одно или несколько грамматических значений 414, выраженных в виде набора грамматических категорий (граммем), одно или несколько семантических ограничений, соотнесенных с заполнителями поверхностных позиций, и одну или несколько диатез 417. Семантические ограничения, соотнесенные с определенным заполнителем поверхностной позиции, могут быть представлены в виде одного или более семантических классов, объекты которых могут заполнить эту поверхностную позицию.

[00087] На Фиг. 11 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного или более методов настоящего изобретения. Снова ссылаясь на Фиг. 4, в блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для построения лексико-морфологической структуры 722 согласно Фиг. 11. Лексико-морфологическая структура 722 может включать множество соответствий лексического и грамматического значений для каждой лексической единицы (например, слова) исходного предложения. Фиг. 5 схематически иллюстрирует пример лексико-морфологической структуры.

[00088] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ исходного предложения 212 для построения графа обобщенных составляющих 732 согласно Фиг. 11. Грубый синтаксический анализ предполагает применение одной или нескольких возможных синтаксических моделей возможных лексических значений к каждому элементу множества элементов лексико-морфологической структуры 722, с тем чтобы установить множество потенциальных синтаксических отношений в составе исходного предложения 212, представленных графом обобщенных составляющих 732.

[00089] Граф обобщенных составляющих 732 может быть представлен ациклическим графом, включающим множество узлов, соответствующих обобщенным составляющим исходного предложения 212 и включающим множество дуг, соответствующих поверхностным (синтаксическим) позициям, которые могут выражать различные типы отношений между обобщенными лексическими значениями. В рамках данного способа может применяться множество потенциально применимых синтаксических моделей для каждого элемента множества элементов лексико-морфологических структур исходного предложения 212 для формирования набора составляющих исходного предложения 212. Затем в рамках способа может рассматриваться множество возможных составляющих исходного предложения 212 для построения графа обобщенных составляющих 732 на основе набора составляющих. Граф обобщенных составляющих 732 на уровне поверхностной модели может отражать множество потенциальных связей между словами исходного предложения 212. Поскольку количество возможных синтаксических структур может быть относительно большим, граф обобщенных составляющих 732 может, в общем случае, включать избыточную информацию, в том числе относительно большое число лексических значений по определенным узлам и (или) поверхностных позиций по определенным дугам графа.

[00090] Граф обобщенных составляющих 732 может изначально строиться в виде дерева, начиная с концевых узлов (листьев) и двигаясь далее к корню, путем добавления дочерних составляющих, заполняющих поверхностные позиции 415 множества родительских составляющих, с тем чтобы были охвачены все лексические единицы исходного предложения 212.

[00091] В определенных вариантах осуществления корень графа обобщенных составляющих 732 представляет собой предикат. В ходе описанного выше процесса дерево может стать графом, так как определенные составляющие более низкого уровня могут быть включены в одну или несколько составляющих верхнего уровня. Множество составляющих, которые представляют определенные элементы лексико-морфологической структуры, затем может быть обобщено для получения обобщенных составляющих. Составляющие могут быть обобщены на основе их лексических значений или грамматических значений 414, например, на основе частей речи и отношений между ними. На Фиг. 12 схематически иллюстрируется пример графа обобщенных составляющих.

[00092] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев 742 согласно Фиг. 9 на основе графа обобщенных составляющих 732. Для каждого синтаксического дерева вычислительное устройство может определить интегральную оценку на основе априорных и вычисляемых оценок. Дерево с наилучшей оценкой может быть выбрано для построения наилучшей синтаксической структуры 746 исходного предложения 212.

[00093] В ходе построения синтаксической структуры 746 на основе выбранного синтаксического дерева вычислительное устройство может установить одну или несколько недревесных связей (например, путем создания дополнительной связи среди, как минимум, двух узлов графа). Если этот процесс заканчивается неудачей, вычислительное устройство может выбрать синтаксическое дерево с условно оптимальной оценкой, наиболее близкой к оптимальной, и производится попытка установить одну или несколько недревесных связей в дереве. Наконец, в результате точного синтаксического анализа создается синтаксическая структура 746, которая представляет собой лучшую синтаксическую структуру, соответствующую исходному предложению 212. Фактически в результате отбора лучшей синтаксической структуры 746 определяются лучшие лексические значения 240 для элементов исходного предложения 212.

[00094] В блоке 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может отражать передаваемую исходным предложением семантику в независимых от языка терминах. Семантическая структура 218 может быть представлена в виде ациклического графа (например, дерево, возможно, дополненное одной или более недревесной связью (дугой графа). Слова исходного предложения представлены узлами с соответствующими независимыми от языка семантическими классами семантической иерархии 510. Дуги графа представляют глубинные (семантические) отношения между элементами предложения. Переход к семантической структуре 218 может осуществляться с помощью правил анализа 460 и предполагает соотнесение одного или более атрибутов (отражающих лексические, синтаксические и (или) семантические свойства слов исходного предложения 212) с каждым семантическим классом.

[00095] На Фиг. 13 приводятся примеры синтаксической структуры предложения, сгенерированной из графа обобщенных составляющих, показанного на Фиг. 12. Узел 901 соответствует лексическому элементу "life" (жизнь) 906. Применяя способ описанного в настоящем документе синтактико-семантического анализа, вычислительное устройство может установить, что лексический элемент "life" (жизнь) 906 представляет одну из форм лексического значения, соотнесенного с семантическим классом "LIVE" (ЖИТЬ) 904 и заполняет поверхностную позицию $Adjunctr_Locative 905) в родительской составляющей, представленной управляющим узлом Verb:succeed:succeed:TO_SUCCEED (907).

[00096] На Фиг. 14 приводится семантическая структура, соответствующая синтаксической структуре на Фиг. 13. В отношении вышеупомянутого лексического элемента "life" (жизнь) (906) на Фиг. 13 семантическая структура включает лексический класс 1010 и семантический класс 1030, соответствующие представленным на Фиг. 13, однако вместо поверхностной позиции (905) семантическая структура включает глубинную позицию "Sphere" (сфера_деятельности) 1020.

[00097] В соответствии с одним или несколькими аспектами настоящего изобретения вычислительное устройство, в котором реализованы описанные в настоящем описании способы, может индексировать один или несколько параметров, полученных в результате семантико-синтаксического анализа. Таким образом, способы настоящего изобретения позволяют рассматривать не только множество слов в составе исходного текстового корпуса, но и множество лексических значений этих слов, сохраняя и индексируя всю синтаксическую и семантическую информацию, полученную в ходе синтаксического и семантического анализа каждого предложения исходного текстового корпуса. Такая информация может дополнительно включать данные, полученные в ходе промежуточных этапов анализа, а также результаты лексического выбора, в том числе результаты, полученные в ходе разрешения неоднозначностей, вызванных омонимией и (или) совпадающими грамматическими формами, соответствующими различным лексико-морфологическим значениям некоторых слов исходного языка.

[00098] Для каждой семантической структуры можно создать один или несколько индексов. Индекс можно представить в виде структуры данных в памяти, например, в виде таблицы, состоящей из нескольких записей. Каждая запись может представлять собой установление соответствия между определенным элементом семантической структуры (например, одно слово или несколько слов, синтаксическое отношение, морфологическое, синтаксическое или семантическое свойство или синтаксическая или семантическая структура) и одним или несколькими идентификаторами (или адресами) случаев употребления данного элемента семантической структуры в исходном тексте.

[00099] В определенных вариантах осуществления индекс может включать одно или несколько значений морфологических, синтаксических, лексических и (или) семантических параметров. Эти значения могут создаваться в процессе двухэтапного семантического анализа (более подробное описание см. в настоящем документе). Индекс можно использовать для выполнения различных задач обработки естественного языка, в том числе для выполнения семантического поиска.

[000100] Вычислительное устройство, реализующее данный способ, может извлекать широкий спектр лексических, грамматических, синтаксических, прагматических и (или) семантических характеристик в ходе проведения синтактико-семантического анализа и создания семантических структур. В иллюстративном примере система может извлекать и сохранять определенную лексическую информацию, данные о принадлежности определенных лексических единиц семантическим классам, информацию о грамматических формах и линейном порядке, информацию об использовании определенных форм, аспектов, тональности (например, положительной или отрицательной), глубинных позиций, недревесных связей, семантем и т.д.

[000101] Вычислительное устройство, в котором реализованы описанные здесь способы, может производить анализ, используя один или несколько описанных в этом документе способов анализа текста, и индексировать любой один или несколько параметров описаний языка, включая лексические значения, семантические классы, граммемы, семантемы и т.д. Индексацию семантического класса можно использовать в различных задачах обработки естественного языка, включая семантический поиск, классификацию, кластеризацию, фильтрацию текста и т.д.. Индексация лексических значений (вместо индексации слов) позволяет искать не только слова и формы слов, но и лексические значения, т.е. слова, имеющие определенные лексические значения. Вычислительное устройство, реализующее способы настоящего изобретения, также может хранить и индексировать синтаксические и семантические структуры, созданные одним или несколькими описанными в настоящем документе способами анализа текста, для использования данных структур и (или) индексов при проведении семантического поиска, классификации, кластеризации и фильтрации документов.

[000102] На Фиг. 15 показан иллюстративный приме вычислительного устройства (1000), которое может исполнять набор команд, которые вызывают выполнение вычислительным устройством любого отдельно взятого или нескольких способов настоящего изобретения. Вычислительное устройство может подключаться к другому вычислительному устройству по локальной сети, корпоративной сети, сети экстранет или сети Интернет. Вычислительное устройство может работать в качестве сервера или клиентского вычислительного устройства в сетевой среде "клиент/сервер" либо в качестве однорангового вычислительного устройства в одноранговой (или распределенной) сетевой среде. Вычислительное устройство может быть представлено персональным компьютером (ПК), планшетным ПК, телевизионной приставкой (STB), карманным ПК (PDA), сотовым телефоном или любым вычислительным устройством, способным выполнять набор команд (последовательно или иным образом), определяющих операции, которые должны быть выполнены этим вычислительным устройством. Кроме того, в то время как показано только одно вычислительное устройство, следует принять, что термин «вычислительное устройство» также может включать любую совокупность вычислительных устройств, которые отдельно или совместно выполняют набор (или несколько наборов) команд для выполнения одной или нескольких методик, описанных в настоящем документе.

[000103] Пример вычислительного устройства (1000) включает процессор (502), основную память (504) (например, постоянное запоминающее устройство (ПЗУ) или динамическую оперативную память (DRAM)) и устройство хранения данных (518), которые взаимодействуют друг с другом по шине (530).

[000104] Процессор (502) может быть представлен одним или более универсальными вычислительными устройствами, например, микропроцессором, центральным процессором и т.д. В частности, процессор (502) может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор с командными словами сверхбольшой длины (VLIW), процессор, реализующий другой набор команд, или процессоры, реализующие комбинацию наборов команд. Процессор (502) также может представлять собой одно или несколько вычислительных устройств специального назначения, например, заказную интегральную микросхему (ASIC), программируемую пользователем вентильную матрицу (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Процессор (502) настроен на выполнение команд (526) для осуществления рассмотренных в настоящем документе операций и функций.

[000105] Вычислительное устройство (1000) может дополнительно включать устройство сетевого интерфейса (522), устройство визуального отображения (510), устройство ввода символов (512) (например, клавиатуру), и устройство ввода - сенсорный экран (514).

[000106] Устройство хранения данных (518) может содержать машиночитаемый носитель данных (524), в котором хранится один или более наборов команд (526), и в котором реализован один или более из методов или функций настоящего изобретения. Команды (526) также могут находиться полностью или по меньшей мере частично в основной памяти (504) и/или в процессоре (502) во время выполнения их в вычислительном устройстве (1000), при этом оперативная память (504) и процессор (502) также составляют машиночитаемый носитель данных. Команды (526) дополнительно могут передаваться или приниматься по сети (516) через устройство сетевого интерфейса (522).

[000107] В некоторых вариантах осуществления команды (526) могут включать в себя команды способа (800) на создание онтологий на основе анализа текстов на естественном языке. В то время как машиночитаемый носитель данных (524), показанный на примере на Фиг. 4, является единым носителем, термин «машиночитаемый носитель» должен включать один носитель или несколько носителей (например, централизованную или распределенную базу данных, и/или соответствующие кэши и серверы), в которых хранится один или более наборов команд. Термин "машиночитаемый носитель данных" также следует рассматривать как термин, включающий любой носитель, который способен хранить, кодировать или переносить набор команд для выполнения машиной, который заставляет эту машину выполнять любую одну или несколько из методик, описанных в настоящем раскрытии изобретения. Таким образом, термин «машиночитаемый носитель данных», помимо прочего, также относится к твердотельной памяти и оптическим и магнитным носителям.

[000108] Описанные в документе способы, компоненты и функции могут быть реализованы дискретными аппаратными компонентами, либо они могут быть интегрированы в функции других аппаратных компонентов, таких как ASICS, FPGA, DSP или подобных устройств. Кроме того, способы, компоненты и функции могут быть реализованы с помощью модулей встроенного программного обеспечения или функциональных схем аппаратных устройств. Способы, компоненты и функции также могут быть реализованы с помощью любой комбинации вычислительных средств и программных компонентов, либо исключительно с помощью программного обеспечения.

[000109] В приведенном выше описании изложены многочисленные детали. Однако специалисту в этой области техники благодаря этому описанию очевидно, что настоящее изобретение может быть реализовано на практике без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схемы, а не детально, чтобы не усложнять описание настоящего изобретения.

[000110] Некоторые части описания предпочтительных вариантов реализации представлены в виде алгоритмов и символического представления операций с битами данных в памяти компьютера. Такие описания и представления алгоритмов представляют собой средства, используемые специалистами в области обработки данных, чтобы наиболее эффективно передавать сущность своей работы другим специалистам в данной области. В настоящем документе и в целом алгоритмом называется самосогласованная последовательность операций, приводящих к требуемому результату. Операции требуют физических манипуляций с физическими величинами. Обычно, хотя и не обязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и подвергать другим манипуляциям. Оказалось, что прежде всего для обычного использования удобно описывать эти сигналы в виде битов, значений, элементов, символов, членов, цифр и т.д.

[000111] Однако следует иметь в виду, что все эти и подобные термины должны быть связаны с соответствующими физическими величинами, и что они представляют собой просто удобные метки, применяемые к этим величинам. Если иное специально и недвусмысленно не указано в нижеследующем обсуждении, следует принимать, что везде по тексту такие термины как "определение", "вычисление", "расчет", "вычисление", "получение", "установление", "изменение" и т.п., относятся к действиям и процессам вычислительного устройства или аналогичного электронного вычислительного устройства, которое работает с данными и преобразует данные, представленные в виде физических (например, электронных) величин в регистрах и памяти вычислительного устройства, в другие данные, аналогичным образом представленные в виде физических величин в памяти или регистрах вычислительного устройства, либо других подобных устройствах хранения, передачи или отображения информации.

[000112] Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Такое устройство может быть специально сконструировано для требуемых целей или оно может содержать универсальный компьютер, который избирательно активируется или реконфигурируется с помощью компьютерной программы, хранящейся в компьютере. Такая компьютерная программа может храниться на машиночитаемом носителе данных, таком как, в числе прочих, диск любого рода, в том числе дискеты, оптические диски, компакт-диски, магнитно-оптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), СППЗУ, ЭППЗУ, магнитные или оптические карты и другие виды носителей данных, подходящие для хранения электронных команд.

[000113] Следует понимать, что вышеприведенное описание носит иллюстративный, а не ограничительный характер. Различные другие варианты осуществления станут очевидны специалистам в данной области техники после прочтения и понимания приведенного выше описания. Поэтому объем раскрытия должен определяться со ссылкой на прилагаемую формулу изобретения наряду с полным объемом эквивалентов, на которые такие требования предоставляют право.

1. Способ выявления словосочетаний в текстах на естественном языке, заключающийся в:

выполнении вычислительным устройством семантико-синтаксического анализа текста на естественном языке для получения множества семантических структур;

формировании исходного списка сочетаний слов с учетом отношений, определенных семантическими структурами;

составлении списка словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов, где применение эвристического фильтра основано на, по меньшей мере, использовании метрики качества, представляющей функцию от, по меньшей мере, частот семантических классов и частоты отношений между словами в составе по меньшей мере одного словосочетания; и

использовании списка словосочетаний для выполнения операции обработки естественного языка.

2. Способ по п. 1, отличающийся тем, что указанная функция задается произведением указанных частот семантических классов и указанной частоты отношений между словами.

3. Способ по п. 2, в котором указанные семантические классы представляют отдельные слова из указанного словосочетания в одной или более указанных семантических структурах.

4. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает удаление словосочетания, имеющего значение метрики качества ниже порогового значения метрики качества.

5. Способ по п. 1, отличающийся тем, что формирование исходного списка сочетаний слов включает обход узлов семантической структуры для множества семантических структур.

6. Способ по п. 1, отличающийся тем, что формирование исходного списка сочетаний слов включает определение значений предопределенной статистики для каждого сочетания слов, входящего в состав исходного списка сочетаний слов.

7. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает оценку атрибута каждого сочетания слов, включенного в исходный список сочетаний слов.

8. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает удаление сочетания слов, связанного со словом, включенным в специальный список.

9. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает замену сочетания слов соответствующим обобщенным словосочетанием.

10. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает удаление сочетания слов, частота встречаемости которого ниже нижнего частотного порога.

11. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает удаление сочетания слов, которое содержится в другом сочетании слов, на которое ссылается исходный список сочетаний слов.

12. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает удаление первого сочетания слов, содержащего второе сочетание слов, на которое ссылается исходный список сочетаний слов.

13. Способ по п. 1, отличающийся тем, что применение эвристического фильтра включает удаление сочетания слов, имеющего расстояние между словами при линейном порядке слов, превышающее максимальное пороговое расстояние.

14. Система, предназначенная для выявления словосочетаний в текстах на естественном языке, содержащая:

память;

процессор, связанный с этой памятью, причем этот процессор настроен на выполнение операций, включающих:

выполнение семантико-синтаксического анализа текста на естественном языке для получения множества семантических структур;

формирование исходного списка сочетаний слов с учетом отношений, определенных семантическими структурами;

составление списка словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов, где применение эвристического фильтра основано на, по меньшей мере, использовании метрики качества, представляющей функцию от, по меньшей мере, частот семантических классов и частоты отношений между словами в составе по меньшей мере одного словосочетания; и

использование списка словосочетаний для выполнения операции обработки естественного языка.

15. Система по п. 14, отличающаяся тем, что указанная функция задается произведением указанных частот семантических классов и указанной частоты отношений между словами.

16. Система по п. 15, в которой указанные семантические классы представляют отдельные слова из указанного словосочетания в одной или более указанных семантических структурах.

17. Система по п. 14, отличающаяся тем, что применение эвристического фильтра включает удаление словосочетания, имеющего значение метрики качества ниже порогового значения метрики качества.

18. Система по п. 14, отличающаяся тем, что построение исходного списка сочетаний слов включает обход узлов семантической структуры, входящей в множество семантических структур.

19. Система по п. 14, отличающаяся тем, что формирование исходного списка сочетаний слов включает определение значения предопределенной статистики для каждого сочетания слов, входящего в исходный список сочетаний слов.

20. Система по п. 14, отличающаяся тем, что применение эвристического фильтра включает замену сочетания слов соответствующим обобщенным словосочетанием.

21. Энергонезависимый машиночитаемый носитель данных для выявления словосочетаний в текстах на естественном языке, содержащий исполняемые команды, которые при выполнении в вычислительном устройстве обеспечивают выполнение вычислительным устройством операций, включающих:

выполнение семантико-синтаксического анализа текста на естественном языке для получения множества семантических структур;

формирование исходного списка сочетаний слов с учетом отношений, определенных семантическими структурами;

составление списка словосочетаний путем применения эвристического фильтра к исходному списку сочетаний слов, где применение эвристического фильтра основано на, по меньшей мере, использовании метрики качества, представляющей функцию от, по меньшей мере, частот семантических классов и частоты отношений между словами в составе по меньшей мере одного словосочетания; и

использование списка словосочетаний для выполнения операции обработки естественного языка.

22. Энергонезависимый машиночитаемый носитель по п. 21, отличающийся тем, что указанная функция задается произведением указанных частот семантических классов и указанной частоты отношений между словами.

23. Энергонезависимый машиночитаемый носитель по п. 22, в котором указанные семантические классы представляют отдельные слова из указанного словосочетания в одной или более указанных семантических структурах.

24. Энергонезависимый машиночитаемый носитель по п. 21, отличающийся тем, что применение эвристического фильтра включает удаление словосочетания, имеющего значение метрики качества ниже порогового значения метрики качества.

25. Энергонезависимый машиночитаемый носитель данных по п. 21, отличающийся тем, что применение эвристического фильтра включает замену сочетания слов соответствующим обобщенным словосочетанием.



 

Похожие патенты:

Изобретение относится к серверу и способу выполнения очереди запросов в отношении цифровых объектов. Технический результат заключается в обеспечении устранения конфликтов при последовательном выполнении пересекающихся запросов.

Изобретение относится к вычислительной технике, обработке данных для специальных применений и может быть использовано в процессах управления распределением ресурсов в облачных вычислительных средах.

Изобретение относится к автоматизированным системам управления и системам управления запуском летательных аппаратов. Модель основана на методе имитационного статистического моделирования, содержит блок функциональных задач вычислительной системы (ВС), блок задания/приема параметров решения, блок задания/приема параметров объекта исследования (ОИ) и параметров обстановки, блок моделирования выхода объектов управления (ОУ) в точку привязки к ОИ, блок распределения ОИ, блок расчета показателей эффективности запуска ОУ.

Изобретение относится к способу и узлу обновления встроенного программного обеспечения. Технический результат заключается в обеспечении загрузки контролера управления материнской платы после неудачного завершения исполнения процедуры обновления встроенного программного обеспечения контроллера управления материнской платы.

Изобретение относится к технике обработки цифровых данных с помощью программируемых специализированных вычислительных устройств и может быть использовано при разработке специализированных вычислительных устройств обработки цифровых данных на борту боевых летательных аппаратов.

Изобретение относится к импульсной технике и может быть использовано в устройствах обработки информации, управления и измерения, в частности в устройствах приема униполярных старт-стоповых последовательных комбинаций импульсов для контроля отклонения длительности и количества импульсов от заданного значения, контроля местоположения импульсов в комбинации.

Изобретение относится к области удаленной активации приложений. Техническим результатом является эффективная активация приложения.

Изобретение относится к области внесения изменений в дистрибутив программного обеспечения. Технический результат настоящего изобретения заключается в обеспечении изменения дистрибутива программного обеспечения для конечного пользователя с использованием способа изменения дистрибутива программного обеспечения без повторного вычисления цифровых подписей для файлов внутри дистрибутива.

Изобретение относится к способу совместной обработки данных. Технический результат заключается в повышении точности определения внесенных изменений в редактируемые тексты за счет обеспечения совместного редактирования текста пользователями и подсчета статистики вносимых изменений в текст.

Изобретение относится к системе моделирования виртуального сообщества пользователей информационной среды. Технический результат заключается в повышении быстродействия системы за счет локализации адресов записей входных транзакций по идентификаторам имитируемых сообщений, а также в формировании нарастающего итога результатов обработки транзакций в реальном масштабе времени.
Наверх