Адаптивный контекстно-тематический машинный перевод

Авторы патента:

Гольдреер Михаил Маркович (RU)

G06F17/28 - обработка или перевод текстов на естественном языке (G06F 17/27 имеет преимущество)

Владельцы патента RU 2628202:

Гольдреер Михаил Маркович (RU)

Изобретение относится к области машинного перевода текста на естественном языке. Техническим результатом является повышение точности машинного перевода с языка пользователя на иностранный язык, повышение универсализации и экономии вычислительных мощностей при переводе. В способе предоставления информации автоматической системе машинного перевода принимают текст на языке пользователя, который потом разделяют на отдельные исходные фразы-предложения. Автоматическая система путем анализа и сравнения подбирает стандартные фразы, аналогичные каждой исходной фразе, хранящиеся в ее базе данных. Предлагают пользователю выбрать тему стандартной фразы из набора тем в базе данных и переводят фразу на иностранный язык. Если в базе данных не имеется стандартных фраз-аналогов заданной пользователем исходной фразе, то такую исходную информацию отправляют в источник надежной информации вместе с исходным текстом, где подбирают стандартные фразы-аналоги неизвестным исходным фразам и выполняют переводы этих фраз, а также подбирают темы к этим новым стандартным парам "фраза-перевод". Новые темы и стандартные фразы к ним со своими точными переводами встраивают в автоматическую систему машинного перевода. 6 з.п. ф-лы, 4 ил.

Изобретение относится к машинному переводу.

В настоящее время растет рынок машинного перевода с широким применением цифровых интернет-технологий. Несмотря на их бурное развитие, качество машинного перевода практически не растет, все усилия сводятся к тому, чтобы по возможности точнее передать общий смысл переводимых текстов, но точность такого перевода весьма относительна. Такие переводы могут только сэкономить время специалистам при знакомстве со специализированными текстами, когда они похожи и многократно пропускаются через системы машинного перевода с корректировками из надежного источника информации.

Такая методика практически непригодна для межличностного общения разноязыких людей на бытовые темы при обычном разговоре. В то же время уже есть программные приложения, позволяющие делать машинный перевод не только текстовых, но и голосовых сообщений.

В целом все методики и системы современного машинного перевода разрабатываются и имеют конечную цель воспроизвести как можно точнее работу переводчика-человека, специалиста самого высокого класса. Для этого разрабатываются сложнейшие системы структурного и статистического анализа различных языков, задействуются все более мощные вычислительные ресурсы. Но решение задачи не просматривается, ибо это задача создания полноценного искусственного интеллекта.

Сущность изобретения

Варианты осуществления настоящего изобретения относятся к реализуемому при помощи компьютера способу предоставления информации автоматической системе машинного перевода для повышения точности перевода с языка пользователя на иностранный язык, для повышения его универсализации, для экономии вычислительных мощностей. Данный способ включает прием исходного текста на языке пользователя и подачу его для перевода отдельными предложениями-фразами для перевода. Автоматическая система машинного перевода ищет в своих базах данных стандартные фразы-аналоги полученным исходным фразам и темы, которым соответствуют найденные фразы-аналоги. После отбора пользователем нужной темы, если стандартная фраза-аналог исходной фразы представлена в нескольких темах в базе данных системы, автоматическая система машинного перевода дает этой фразе однозначно точный перевод на иностранные языки, которые заготовлены в ее базе данных. Если же стандартная фраза представлена только в одной теме, то она переводится сразу, без подбора темы пользователем. Если какие-то фразы из исходного текста не имеют стандартных фраз-аналогов и своих тем в автоматической системе машинного перевода, то в процессе перевода исходного текста эти новые данные по ним создаются и закладываются в базы данных автоматической системы машинного перевода через связанный с ней удаленный источник надежной информации. Наиболее близким аналогом заявленного изобретения является "Адаптивный машинный перевод", патент RU 2382399 С2 от 18.06.2004 года. Недостатком этого аналога является то, что он ориентирован на перевод сразу всего заданного ему текста, подвергая его сложному грамматическому, семантическому и экстралингвистическому анализу, после чего полученный перевод подвергается статистическому сравнению с похожими текстами и дорабатывается уже после этого сравнения. Но поскольку любой язык постоянно и быстро меняется, вбирая в себя новые слова, смыслы, подтексты и термины, то такая методика перевода обречена на неизбежное отставание и использование все больших вычислительных мощностей, никогда не выходя за понимание общего смысла переводимого текста и не давая исчерпывающего представления о его деталях и тонкостях. А для чисто разговорного общения между людьми этот способ вообще непригоден, так как способен менять в течение непродолжительного времени перевод одних и тех же фраз.

Предлагаемое же изобретение упрощает задачу для автоматической системы машинного перевода тем, что пользователь приспосабливается к ее ограниченным возможностям, задавая для перевода не произвольные тексты целиком, а отдельные фразы, каждая из которых представляет законченный мини-контекст для каждого своего слова и входит в группу фраз, соответствующих определенной теме, которая тоже задается в качестве команды. Таким образом автоматическая система машинного перевода просто ищет в заданной теме стандартные фразы-аналоги фразе, заданной пользователем, и, если выбран нужный аналог, то он тут же получает этот перевод в самом точном и однозначном виде из базы данных автоматической системы. Если же какой-то темы с соответствующими ей стандартными фразами и их переводами еще нет в системе машинного перевода, то с помощью источника надежной информации, в котором могут быть задействованы и переводчики-специалисты, всегда может быть создана новая тема и наполнена соответствующими стандартными фразами с их точными переводами и постоянно пополняемыми наборами фраз - нестандартных соответствий. Таким образом экономится время пользователей, особенно при личном диалоговом общении, и нет необходимости в больших вычислительных мощностях для сложного анализа задаваемых текстов. Тем же, кто хочет перевести иностранный текст на свой язык, эта методика пока не поможет, зато может резко облегчить и ускорить работу профессиональных переводчиков-специалистов, которые, зная иностранный язык и переводя на него тексты, могли бы к тому же пополнять базы данных системы автоматического машинного перевода созданными ими стандартными парами "фраза-перевод" с соответствующими новыми темами. Данный способ резко облегчает переводы исходных текстов на последующие иностранные языки потому, что имея уже один готовый перевод исходного текста, можно этот перевод задавать системе, и она его гораздо легче переведет на другие языки, поскольку он будет состоять из одних стандартных фраз с уже выбранными для них темами.

Можно сказать, что по сравнению с уже имеющимися системами автоматического машинного перевода, с тем же патентом 2382399, данный способ резко упрощает процесс перевода и своей адаптации за счет того, что весь анализ переводимых фраз сводится к поиску аналогов в базах данных путем сравнения, а адаптация (обучение!) - к пополнению баз данных новыми темами с наборами новых стандартных пар "фраза-перевод" с сопутствующими им наборами нестандартных фраз-аналогов. Однако это не исключает в будущем встраивания и использования в настоящем изобретении уже имеющихся методик компьютерного анализа и перевода, вероятностных и статистических, которые применяются в том же способе по патенту 2382399, для повышения степени автоматизации процесса перевода. Но и в этом случае задача для указанных методик будет резко упрощена, поскольку работать придется с отдельными фразами без ориентации на смысл и специализацию всего массива похожих текстов, как это происходит сейчас. Таким образом достигается универсальность настоящего изобретения для максимально точного перевода любых текстов, а не только близких по тематике, как в уже действующих системах автоматического машинного перевода, а общее упрощение работы системы многократно снизит требования к мощности вычислительных ресурсов для ее обеспечения.

Данное изобретение можно использовать с множеством любых вычислительных систем, сред или конфигураций вычислительной системы общего или специального назначения.

Примеры хорошо известных вычислительных систем, сред и/или конфигураций, пригодных для использования с настоящим изобретением, включают персональные компьютеры, серверы, карманные или портативные устройства, мультипроцессорные системы, системы на основе микропроцессоров, приставки, программируемую бытовую электронику, сетевые ПК, мини-компьютеры, универсальные ЭВМ, телефонные системы, распределенные вычислительные среды, содержащие любые из перечисленных систем или устройств и т.п., но не ограничиваются упомянутым.

Краткое описание чертежей

Рис. 1 - Структурная схема, иллюстрирующая сервис адаптивного машинного перевода, соответствующий настоящему изобретению.

Рис. 2 - Структурная схема, иллюстрирующая поиск стандартных фраз-аналогов и тем в базах данных автоматической системы машинного перевода, соответствующий настоящему изобретению.

Рис. 3 - Структурная схема одного конкретного применения вариантов осуществления настоящего изобретения.

Рис. 4 - Структурная схема второго конкретного применения вариантов осуществления настоящего изобретения.

Подробное описание вариантов осуществления настоящего изобретения

На рис. 1 структурно показано, как работает адаптивная система машинного перевода в соответствии с настоящим изобретением.

Голосом или с помощью клавиатуры, а также с любого машиночитаемого носителя пользователь вводит в систему автоматического машинного перевода исходный текст 1, там происходит процесс разделения исходного текста 2 на отдельные фразы-предложения по таким признакам, как заглавные буквы в начале предложения и точка, вопросительный и восклицательный знаки в конце предложения. Затем исходной фразе 3 проводится автоматический процесс подбора 4 стандартной фразы-аналога в базах данных системы, затем стандартной фразе-аналогу 5 система осуществляет автоматический подбор тем 6 из своих баз данных, после чего пользователем выбирается из представленного набора тем подходящая 7. Если в базах данных системы есть только одна тема для стандартной фразы-аналога, то участие пользователя не требуется. Затем стандартная фраза, соответствующая своей теме подвергается процессу автоматического перевода 11, который состоит в том, что данной фразе в базах данных системы отыскивается однозначно точный перевод 12. Если же какой-то исходной фразе текста автоматическая система не находит у себя стандартных аналогов, то эта фраза 8 вместе с исходным текстом поступают по сети Интернет в удаленный источник надежной информации 9, где, либо автоматически, либо при участии человека-переводчика, новой фразе подбирается стандартный аналог и тема, либо из тем, имеющихся в базах данных системы, либо новая тема, соответственно создается стандартная пара "фраза-перевод" 10, которая вместе с новой темой закладывается в базы данных поиска автоматической системы машинного перевода 4, 6, 11. Исходная фраза, не имевшая до этого стандартных аналогов тоже закладывается в базы данных поиска, как нестандартное соответствие стандартной паре "фраза-перевод". В конечном итоге получается автоматически созданный перевод исходной фразы в виде однозначно точного перевода найденной ей стандартной фразы-аналога 12. После перевода всех исходных фраз система машинного перевода выдает полный перевод исходного текста 13.

На рис. 2 отображен поиск стандартных соответствий по базам данных системы автоматического машинного перевода. В базах данных собраны все темы, которые когда-либо задавались системе, каждой теме соответствует свой набор стандартных фраз со своими однозначно точными переводами, а каждой стандартной фразе имеется свой набор исходных фраз, которые когда-либо задавались в систему машинного перевода и прошли через источник надежной информации для подбора им стандартной пары "фраза-перевод" в соответствии с заданной темой.

Исходная фраза 1 сравнивается в со всеми стандартными и нестандартными фразами в базе данных 2, где расположены все стандартные фразы с соответствующими им нестандартными фразами-аналогами, которые когда-либо задавались для перевода системе машинного перевода. Если нашлась стандартная фраза-аналог 3, то она поступает в базу данных 4, где расположены все темы со своими наборами соответствующих им стандартных фраз. После этого пользователь видит все темы 5, в наборах которых присутствует нужная ему стандартная фраза. Из них он выбирает одну 6, которая ему нужна.

На рис. 3 показан вариант использования настоящего изобретения при переводе исходного текста профессиональным переводчиком на иностранный язык. В этом случае системе посылается сигнал о том, что будет работать пользователь-переводчик, в системе предусматривается такая опция. Далее все идет по следующей схеме. Задается исходный текст 1, разбивается на исходные фразы-предложения 2, и, если этим фразам в системе есть стандартные аналоги и темы, то все идет так, как показано на рис. 1, но если находятся исходные фразы без стандартных аналогов и тем 8 в базах данных системы, то переводчик сам делает перевод фразы 9, после чего она вместе с исходным текстом поступает в источник надежной информации 10, где им дается, если нужно, стандартная модификация, и эти новые данные 11 поступают в базы данных 4, 6, 12 системы автоматического машинного перевода.

Таким образом переводчик может сэкономить много времени и сил при переводе больших текстов, а также, имея готовый перевод, скажем на английский язык, состоящий из стандартных фраз, да еще имея тему каждой фразы, поскольку можно запросить ее у системы, он легко, точно и быстро переведет с помощью системы этот текст на любые другие языки, которыми сам не владеет. Также это возможно и для обычного пользователя, что подробно показано на рис. 4.

На рис. 4 показан вариант использования настоящего изобретения при переводе уже готового перевода исходного текста на дополнительные языки. Пользователь имеет готовый перевод исходного текста на какой-то язык. Следовательно, этот перевод состоит из одних стандартных фраз. В системе будет предусмотрена опция, благодаря которой пользователь может запросить электронную версию перевода с проставлением каждой фразе текста названия ее темы. После чего пользователь дает сигнал системе, что ей предстоит перевод на соответствующий язык текста, состоящего из стандартных фраз с указанием их тем. В системе отключаются ненужные звенья и далее все идет следующим путем, исходный текст из стандартных фраз с темами по каждой фразе 1, задается в систему и делается его разделение на фразы предложения со своими темами 2, затем каждая тема 3 со своей стандартной фразой 4 поступают в автоматический процесс перевода стандартной фразы 5, выдавая ее автоматически созданный перевод 6.

На конечном этапе получаем автоматически созданный перевод исходного текста.

1. Реализуемый с помощью компьютера способ предоставления информации автоматической системе машинного перевода, заключающийся в том, что: исходный текст на языке пользователя предварительно разбивается для анализа и перевода на отдельные фразы, каждая из которых представляет одно законченное предложение, каждой исходной фразе автоматическая система подбирает в своей базе данных стандартную фразу-аналог, после чего пользователь может видеть набор тем, в которых присутствует выбранная стандартная фраза в базе данных, если она присутствует сразу в нескольких темах, пользователь указывает тему, которую должна освещать выбранная им стандартная фраза, после чего дается однозначно точный перевод стандартной фразы на иностранный язык в соответствии с темой, которую эта фраза должна освещать, если стандартная фраза присутствует только в одной теме, то переводится сразу без участия пользователя, если исходной фразе нет в базе данных стандартных фраз-аналогов, то система посылает эту фразу вместе с исходным текстом в связанный с ней по сети Интернет источник надежной информации, где данной фразе готовится стандартный аналог, который либо закрепляется за одной из тем, имеющихся в базе данных системы, либо ему подбирается своя тема, подобранной стандартной фразе дается однозначный стандартный перевод на иностранные языки, после чего все эти результаты закладываются в базу данных автоматической системы машинного перевода, причем исходная нестандартная фраза тоже закладывается в базу данных, как одно из нестандартных соответствий стандартной паре "фраза-перевод", созданных для новой темы источником надежной информации, а потом перевод новой стандартной фразы предоставляется пользователю в составе перевода всего исходного текста.

2. Способ по п. 1, отличающийся тем, что предоставление информации автоматической системе машинного перевода производится отдельными законченными фразами-предложениями без необходимости анализировать смысл всего текста.

3. Способ по п. 1, отличающийся тем, что подготовка информации для перевода производится автоматической системой машинного перевода путем предварительного подбора стандартных фраз-аналогов исходных фраз и соответствующих им тем в имеющихся базах данных.

4. Способ по п. 1, отличающийся тем, что каждой стандартной фразе на исходном языке в базах данных автоматической системы машинного перевода соответствует однозначно точный стандартный перевод на языках перевода.

5. Способ по п. 1, отличающийся тем, что предусматривает пополнение баз данных автоматической системы машинного перевода новыми темами с соответствующими им наборами стандартных фраз и их стандартными переводами.

6. Способ по п. 1, отличающийся тем, что исходные фразы, которым подбираются стандартные пары "фраза-перевод" через источник надежной информации, в дальнейшем закладываются в базы данных системы автоматического перевода как часть набора нестандартных соответствий для каждой стандартной пары "фраза-перевод".

7. Способ по п. 6, отличающийся тем, что в базах данных автоматической системы машинного перевода каждой стандартной паре "фраза-перевод" предусмотрен постоянно пополняемый набор нестандартных фраз-соответствий на языке пользователя.

Группа изобретений относится к технологиям автоматической обработки изображений отсканированных документов, содержащих текст. Техническим результатом является повышение эффективности оптического распознавания символов текста на различных языках.

Оптическое распознавание символов серии изображений // 2619712

Изобретение относится к технологиям оптического распознавания символов серий изображений с текстовыми символами. Техническим результатом является повышение качества оптического распознавания символов за счет определения порядка кластеров символьных последовательностей посредством определения медианы перестановок кластеров символьных последовательностей.

Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков // 2619193

Изобретение относится к области многоэтапного распознавания именованных сущностей на основе морфологических и семантических признаков текстов на естественном языке.

Устройство предоставления информации, способ предоставления информации и долговременный считываемый компьютером носитель записи, содержащий компьютерную программу // 2610441

Изобретение относится к области предоставления перевода на различные языки опубликованного материала. Техническим результатом является повышение быстродействия, улучшение точности и надежности перевода текста документа.

Извлечение информации из структурированных документов, содержащих текст на естественном языке // 2607976

Изобретение относится к способу, машиночитаемому носителю данных и системе извлечения данных из структурированного документа. Технический результат заключается в повышении точности формирования объекта структурированного документа за счет дополнительного анализа таблицы и модификации формируемого объекта данных, представленного таблицей, на основе этого анализа.

Крауд-сорсные системы обучения лексике // 2607416

Изобретение относится к автоматизации обучения лексике при помощи учебного контекстного словаря и системы автоматического перевода. Техническим результатом является обеспечение возможности просматривать, выбирать и сохранять переводы слов и фраз в определенном контексте.

Переводческий сервис на базе электронного сообщества // 2604984

Изобретение относится к переводу текста и, в частности, к электронной инфраструктуре, которая лежит в основе сообщества пользователей, осуществляющих электронный доступ к переводам слов и фраз и добавляющих переводы слов и фраз.

Способ и система облачного перевода для мобильного клиента // 2602330

Изобретение в целом относится к «облачным» технологиям перевода, а более конкретно - к способу и системе облачного перевода для мобильного клиента. Техническим результатом является повышение скорости перевода за счет предотвращения излишнего повторного перевода.

Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов // 2595559

Группа изобретений относится к технологиям оптического распознавания символов (OCR) кадров видеоматериалов с целью обнаружения в них текстов на естественных языках.

Способ обеспечения общения людей, говорящих на разных языках // 2585974

Изобретение относится к области электроники, в частности к средствам приема и передачи речи абонентов, говорящих на разных языках. Техническим результатом является обеспечение защиты передаваемой и принимаемой речи от несанкционированного доступа, повышение точности передачи речи, повышение надежности приема и передачи речи.

Способ и устройство для сохранения строки // 2636673

Изобретение относится к области сетевых технологий и, в частности, к способу и устройству для сохранения строки. Технический результат заключается в повышении эффективности сохранения текстовой строки и информации ее контекста. Технический результат достигается за счет получения заданной строки, подлежащей сохранению, получения результата перевода заданной строки, получения информации контекста заданной строки, сохранения заданной строки, результата перевода заданной строки и информации контекста заданной строки в заранее заданной базе данных строк с отношением соответствия, причем информация контекста содержит информацию о предложении или абзаце, которому данная строка в настоящее время принадлежит, а получение информации контекста заданной строки включает получение экранного снимка текущего местоположения заданной строки и идентификацию информации контекста заданной строки в соответствии с результатом экранного снимка. 3 н. и 6 з.п. ф-лы, 7 ил.

Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) // 2639684

Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста. Такой результат достигается за счет того, что способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, включает следующие этапы: получение текстовой фразы; определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы. 4 н. и 23 з.п. ф-лы, 10 ил.

Верификация атрибутов информационных объектов // 2640718

Изобретение относится к области использования верифицированных пользователем данных. Технический результат – повышение точности извлечения информации из текстов на естественном языке и обеспечение пользователю возможности верифицировать достоверность извлекаемых данных. Способ извлечения информации включает: получение первого значения атрибута и второго значения атрибута, связанного с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке; получение первого значения степени уверенности, соответствующей первому значению атрибута, и второго значения степени уверенности, соответствующей второму значению атрибута, где указанная степень уверенности выражает степень ассоциативной связи с по меньшей мере одним информационным объектом; в случае, если первое значение степени уверенности ниже заданного порогового значения, вывод первого значения атрибута; в ответ на получение через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, выполнение по меньшей мере одного из следующих действий: повышение первого значения степени уверенности или задание первого значения степени уверенности для второго заранее определенного значения. 3 н. и 20 з.п. ф-лы, 16 ил.

Способ автоматического перевода устной речи с одного языка на другой и устройство для его реализации // 2641222

Изобретение относится к области электроники, в частности к электронным устройствам для организации общения между людьми, говорящими на разных языках. Технический результат заключается в повышении точности и скорости перевода устной речи с одного языка на другой. Технический результат достигается за счет способа перевода устной речи с одного языка на другой язык, который реализуется с использованием устройства, выполненного в виде двух модулей - блока обработки сигналов от микрофонов и электронного устройства, содержащего ЭВМ с соответствующим программным обеспечением, которые могут быть связаны друг с другом по проводным или беспроводным линиям связи. Блок обработки сигналов от микрофонов предназначен для выполнения части операций по обработке сигналов с выходов микрофонов и управления работой излучателей сигналов, и его выполняют с возможностью подключения к нему по крайней мере двух микрофонов и излучателей сигналов и выполняют его в виде двух каналов обработки сигналов микрофонов, узла коммутации, связанных между собой так, что обеспечивается возможность автоматического поочередного переключения электрических сигналов, формируемых с помощью микрофонов, на один общий микрофонный выход блока обработки сигналов микрофонов. 2 н. и 16 з.п. ф-лы, 2 ил.

Сопоставление разметки для похожих документов // 2643467

Изобретение относится к средством проецирования разметки документа. Технический результат заключается в повышении эффективности извлечения информации за счет сокращения времени предобработки и в повышении точности извлекаемой информации. Получают целевой документ, содержащий текстовый контент. Определяют набор похожих документов с использованием индекса сохраненных документов, при этом набор похожих документов похож на целевой документ. Выбирают первый похожий документ из набора похожих документов, который наиболее похож на целевой документ. Определяют одну или более частей текстового контента в первом похожем документе, отличающихся от соответствующих одной или более частей текстового контента в целевом документе. Определяют первое положение первой разметки в первом похожем документе. Определяют проецируемую разметку для целевого документа с учетом одного или более различий между первой частью текстового контента первого похожего документа и соответствующей частью текстового контента целевого документа и сохраняют проецируемую разметку для целевого документа. 3 н. и 27 з.п. ф-лы, 8 ил.

Курирование многоязычных коммерческих признаков и синтез транслитерации // 2644071

Изобретение относится к области автоматизированного лингвистического преобразования данных с конкретным фокусом на преобразовании между разными орфографиями (например, с письменности русской кириллицы на латинскую письменность) в пределах заданных контекстов (таких как названия коммерческих предприятий). Техническим результатом является повышение точности лингвистических преобразований. В способе лингвистического преобразования данных принимают входные данные, которые включают в себя строку символов на первом языке и данные семантического контекста, касающиеся источника входных данных. Разбирают строку символов в ее графемы и формируют шаблон символов, который представляет абстракцию графем. Анализируют данные семантического контекста и шаблон символов в соответствии с правилами для выдачи потенциального межъязыкового преобразования шаблона символов. Преобразуют строку символов из первого языка во второй язык в соответствии с потенциальным межъязыковым преобразованием. Анализируют признаки рабочих характеристик относительно преобразования и обновляют правила на основе признаков рабочих характеристик. 3 н. и 15 з.п. ф-лы, 18 ил., 12 табл.

Курирование многоязычных коммерческих признаков и синтез транслитерации // 2644071

Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора // 2646386

Изобретение относится к обработке текстов на естественном языке. Техническим результатом является повышение объема извлечения информации с учетом возможной неоднозначности предложений естественного языка и альтернативных вариантов семантико-синтаксического разбора. В способе извлечения информации из текстов на естественном языке выполняют семантико-синтаксический анализ части текста на естественном языке с целью получения множества семантико-синтаксических структур, включающего первую и вторую альтернативные семантико-синтаксические структуры. Объединяют множество структур с целью получения объединенной семантико-синтаксической структуры. Исключают дублирующие семантико-синтаксические подструктуры из объединенной структуры. Выявляют в пределах указанной части текста информационные объекты путем интерпретации объединенной структуры с целью установления ассоциативной связи токенов, образованных указанной частью текста, с некоторой категорией информационных объектов. При этом интерпретация объединенной структуры производится с учетом значения метрики качества, ассоциированной с частью первой альтернативной структуры. 3 н. и 13 з.п. ф-лы, 13 ил.