Способ обнаружения текстовых объектов

Авторы патента:

Пшехотская Екатерина Александровна (RU)

G06F17/20 - манипулирование данными, представленными на естественном языке (анализ или синтез речи G10L)

Владельцы патента RU 2498401:

Общество с ограниченной ответственностью "Центр Инноваций Натальи Касперской" (RU)

Изобретение относится к способу обнаружения текстовых объектов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого способа обнаружения текстовых объектов. Способ обнаружения текстовых объектов заключается в том, что формируют для каждого подлежащего обнаружению текстового объекта список регулярных выражений, каждое из которых описывает данный текстовый объект; создают синтаксический анализатор, предназначенный для осуществления синтаксического анализа регулярных выражений; генерируют на основе синтаксического анализатора индивидуальный конечный автомат для каждого регулярного выражения; объединяют индивидуальные конечные автоматы всех регулярных выражений в по меньшей мере один поисковый автомат, предназначенный для поиска текстовых объектов; запускают поисковые автоматы на тексте подлежащего проверке документа для обнаружения в нем строк, представляющих собой текстовые объекты. 6 з.п. ф-лы.

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу обнаружения текстовых объектов и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них конкретных выражений.

Уровень техники

При проверке текстовых документов бывает необходимо выявлять наличие в них конкретных выражений. Это может, например, происходить при отслеживании документов, проходящих по сети компании, на предмет наличия в них той или иной конфиденциальной информации.

Существуют различные способы для решения этой проблемы.

Например, в патенте России №2253893 (опубл. 10.06.2005) раскрыт способ автоматизированного анализа электронных документов, в котором выделяют устойчивые формулировки, участвующие в дальнейшем анализе документа. Сходный способ раскрыт в патентах США №7130850 (опубл. 31.10.2006) и №7225188 (опубл. 29.05.2007). Эти способы достаточно трудоемки и пригодны лишь в ограниченной области.

В выложенной заявке на патент Японии №2008-257444 (опубл. 23.10.2008) предложен способ управления файлами документов, в котором выделяют особенности в файле за счет использования предписанных выражений и вычисляют сходство между файлами путем сравнения этих особенностей. Этот способ также имеет лишь ограниченное применение.

В заявках на патент Китая №101520770 (опубл. 02.09.2009) и №101814065 (опубл. 25.08.2010) описаны способы использования регулярных выражений, получаемых с помощью заданных правил. Этот способ также имеет ограниченное применение.

Раскрытие изобретения

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого способа обнаружения текстовых объектов, который бы преодолевал недостатки известных технических решений.

Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ обнаружения текстовых объектов, заключающийся в том, что формируют для каждого подлежащего обнаружению текстового объекта список регулярных выражений, каждое из которых описывает данный текстовый объект; создают синтаксический анализатор, предназначенный для осуществления синтаксического анализа регулярных выражений; генерируют на основе синтаксического анализатора индивидуальный конечный автомат для каждого регулярного выражения; объединяют индивидуальные конечные автоматы всех регулярных выражений в по меньшей мере один поисковый автомат, предназначенный для поиска упомянутых текстовых объектов; и запускают поисковые автоматы на тексте подлежащего проверке документа для обнаружения в нем строк, содержащих текстовые объекты.

Особенность способа по настоящему изобретению состоит в том, что для каждого из индивидуальных конечных автоматов могут генерировать соответствующий инвертированный конечный автомат, каждый из которых предназначен для распознавания в обратном порядке соответствующего регулярного выражения в текстовых объектах; обнаруживать, с помощью поисковых автоматов, окончание каждой строки, входящей в язык какого-либо из упомянутых регулярных выражений; и запускать соответствующий обнаруженному регулярному выражению инвертированный конечный автомат от обнаруженного окончания строки для нахождения начала строки, соответствующей данному регулярному выражению.

Еще одна особенность способа по настоящему изобретению состоит в том, что дополнительно могут верифицировать по меньшей мере некоторые из обнаруженных регулярных выражений.

Еще одна особенность способа по настоящему изобретению состоит в том, что поисковый автомат могут минимизировать относительно количества его состояний.

Еще одна особенность способа по настоящему изобретению состоит в том, что поисковый автомат могут преобразовывать в детерминированный конечный автомат в случае наличия неоднозначных переходов в общем конечном автомате.

Наконец, еще одна особенность способа по настоящему изобретению состоит в том, что синтаксический анализатор могут создавать с учетом контекста каждого из языков, используемых в подлежащих проверке документах, причем контекст языка содержит множество значимых символов этого языка. При этом в синтаксическом анализаторе могут реализовать оператор «.», обеспечивающий выдачу всех символов, которыми может оперировать конкретное регулярное выражение, либо оператор «х-у», обеспечивающий выдачу всех символов используемого языка, находящихся в конкретном регулярном выражении в последовательности символов, заключенной между символом «х» и символом «у».

Подробное описание изобретения

Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п. Для осуществления изобретения необходимо также наличие соответствующей базы данных, в которой хранятся электронные файлы текстовых документов.

Способ обнаружения текстовых объектов по настоящему изобретению предназначен для того, чтобы выделять из текстов анализируемых документов некоторые объекты, которые представляют собой структурированные сущности, описываемые посредством языка регулярных выражений. В результате пользователю должны выдаваться все строки из текста входного документа, удовлетворяющие шаблонам, заданным регулярными выражениями.

В способе по настоящему изобретению для каждого подлежащего обнаружению текстового объекта формируют список регулярных выражений, каждое из которых описывает данный текстовый объект. Текстовые объекты могут быть самыми разными, к примеру это может быть номер кредитной карты или дипломатического паспорта. Регулярное выражение определяется (см. Лапшин В.А. Лекции по математической лингвистике. - М.: Научный мир, 2010) индуктивно согласно следующим правилам:

1. Символ исходного алфавита является регулярным выражением, а также 8, обозначающая пустую цепочку.

2. Если R, R′ и R″ - регулярные выражения, то R′|R″, R′R″, R* и (R) - также регулярные выражения.

На практике еще применяются сокращения операторов. Например, [х-у]=х|х′|х″|…|у, т.е. альтернативу встречаемости всех символов в интервале [х; у], включая концы.

Простые примеры:

ab* - любой текст, начинающийся с символа а, за которым идет нуль или более символов b.

[a,c-e]?(ab)+ - любой текст, который начинается с необязательных (знак вопроса) символов a, c, d, e, за которыми идет нуль или более повторений строки ab.

Далее создают синтаксический анализатор, предназначенный для осуществления синтаксического анализа упомянутых регулярных выражений. Этот синтаксический анализатор представляет собой программу, которая проверяет, является ли переданное регулярное выражение правильно построенным или нет. Синтаксический анализатор создают с учетом контекста каждого из языков, используемых в подлежащих проверке документах, при этом упомянутый контекст языка содержит множество значимых символов этого языка. Например, в синтаксическом анализаторе могут быть реализованы оператор «х-у», обеспечивающий выдачу всех символов используемого языка, находящихся в конкретном регулярном выражении в последовательности символов, заключенной между символом «х» и символом «у», и оператор «.», обеспечивающий выдачу всех символов, которыми может оперировать конкретное регулярное выражение. Последний случай значим при работе с UNICODE, который содержит 2²¹ символов. Оператор «.» обозначает любой символ, кроме символа окончания строки «\n». Если вместо точки вставить все 2²¹ символов, то получится огромный автомат. Т.е. при анализе регулярного выражения необходимо еще знание о языках данного регулярного выражения и об их символьных наборах.

Затем на основе разобранного синтаксическим анализатором регулярного выражения генерируют индивидуальный конечный автомат для каждого упомянутого регулярного выражения. Каждый из этих автоматов является распознающим автоматом, т.е. он распознает, принадлежит ли конкретная строка языку данного регулярного выражения. Такое генерирование конечных автоматов можно осуществлять посредством стандартной процедуры (см., к примеру, информацию, размещенную на сайте http://citforum.edunet.kz/programming/theory/compiler/2.shtml). Полученные индивидуальные конечные автоматы для отдельных выражений объединяют (с помощью стандартного алгоритма объединения конечных автоматов) в поисковый автомат, предназначенный для поиска в тексте строк, заданных соответствующими регулярными выражениями. Этот поисковый автомат минимизируют относительно количества состояний для оптимального распознавания текстовых объектов. Если при объединении индивидуальных конечных автоматов были созданы неоднозначные переходы, объединенный общий конечный автомат преобразуют в детерминированный конечный автомат. Детерминированный автомат отличается от недетерминированного тем, что при чтении символа в первом имеется не более одного перехода в следующее состояние. Это свойство делает поиск быстрым, насколько это возможно. Способы такого преобразования см., например, в http://citforum.ru/programming/theory/serebryakov/3.shtml.

При поиске текстов регулярных выражений предпочтительно используется стратегия «жадного поиска». Например, если некое регулярное выражение описано как «а+», что означает повторение символа «а» один или несколько раз, а входной текст может содержать строку «ааааа», то в качестве результата могут выдаваться строки «а», «аа», «ааа» и т.д. В этом случае используют так называемый «жадный» алгоритм, который выделяет наиболее длинную строку, подходящую под указанное описание.

Кроме того, в предпочтительном варианте осуществления настоящего изобретения для каждого регулярного выражения (или, что то же, для каждого индивидуального конечного автомата) генерируют соответствующий инвертированный конечный автомат, каждый из которых предназначен для распознавания в обратном порядке соответствующего регулярного выражения в упомянутых текстовых объектах. Вместе с тем в предпочтительном варианте осуществления настоящего изобретения создают верификационные функции для проверки соответствия каждого из регулярных выражений установленным условиям. Верификация здесь - это запуск дополнительного алгоритма проверки структуры объекта, представленного данной найденной строкой. Например, для объектов типа «номер кредитной карты» необходимо дополнительно проверить, действительно ли найденный номер является номером кредитной карты. Для этого используется так называемый алгоритм Луна, т.е. известный алгоритм вычисления контрольной цифры номера пластиковых карт в соответствии со стандартом ISO/IEC 7812. Описать этот алгоритм на языке регулярных выражений невозможно, поэтому и используется алгоритм верификации как дополнительный фильтр для таких объектов.

Все конечные автоматы и функции верификации сохраняют в упомянутой выше базе данных в соответствующих файлах.

Запомненный в базе данных общий конечный автомат запускают на тексте подлежащего проверке документа для обнаружения в нем строк, содержащих упомянутые текстовые объекты (регулярные выражения). При обнаружении с помощью общего конечного автомата окончания каждой строки, содержащей какое-либо из упомянутых регулярных выражений, в предпочтительном варианте осуществления настоящего изобретения запускают соответствующий обнаруженному регулярному выражению инвертированный конечный автомат от обнаруженного окончания строки для нахождения начала строки, представляющей обнаруженное регулярное выражение.

Ниже приведен пример реализации способа обнаружения текстовых объектов по настоящему изобретению. Алгоритмы верификации в данном примере заданы на языке Python. Вообще, задание алгоритма на интерпретируемом языке (скрипте) представляет собой хороший способ привязать способ поиска объекта (регулярное выражение) к способу верификации (тексту соответствующей процедуры). Файл в этом примере позволяет обнаружить в тексте номер кредитной карты и дипломатического паспорта.

<?xml version=″1.0″?>

<name>credit_card</name>

<description>Номер кредитной карты</description>

<normal_form>%0</normal_form>

<verify_proc><![CDATA[

import string

defcheck(text):

separators=set([])

digits=[]

result=″″

for letter in text:

try:

iletter=int(letter)

digits.append(iletter)

result+=letter

except ValueError:

separators.add(letter)

if(len(separators)>1):

return False

iflen(digits)!=13 and len(digits)!=16:

return False

flag=0

iflen(digits)==13:

flag=1

sum=0

for pos,digit in enumerate(digits):

ifpos % 2==flag:

val=2*digit

ifval>9:

val-=9

sum+=val

else:

sum+=digit

if sum % 10!=0:

return False

return result

]]></verify_proc>

</re>

</object>

<name>dip_passport_0</name>

<expression><![CDATA[^{^}|[\r\n\1]Д|дип(?\w+|\.)?

*(?(?П|пacпopт)|(?P|passport)|(?P|pass\.?))[^{^}0-9:]**(?[0-9]{2})*(•?

*?\w{,7}(?:|)|№:?)?*(?(?[0-9]?){7})(?[\r\n\t,;.?!\:]|$)]]></expression>

<normal_form>%0</normal_form>

<verify_proc><![CDATA[]]x/verify_proc>

</re>

<name>dip_passport_1</name>

<expression><![CDATA[^{^}|[\r\n\t]Д|дип(?\w+|\.)?

*(?(?П|пacпopт)|(?P|passport)|(?P|pass\.?))[^{^}0-9:]**(?\w{,7}(?:|)|№:?)?

*(?(?[0-9]?){7})(?\w{,7}(?:|)|№:?)?*(?[0-9]{2})(?[

\r\n\t,;.?!\:]|$)]]></expression>

<normal_form>%0</normal_form>

<verify_proc><![CDATA[]]>

</verify_proc>

</re>

</object>

</objects>

Согласно этому примеру, для каждого объекта необходимо задать текстовое имя (name) и список регулярных выражений, по которым происходит обнаружение этого объекта. Для каждого регулярного выражения (секция <re></re>) указывается через пробел список языков (langs), уникальный текстовый идентификатор (name), текст регулярного выражения (expression), нормальная форма (normal_form), произвольное текстовое описание (description) и функция верификации (verify_proc).

На основе файла с объектами:

- строят автоматы всех регулярных выражений,

- строят НКА (недетерминированные конечные автоматы),

- по НКА строят ДКА (детерминированные конечные автоматы),

- ДКА преобразуют в поисковые автоматы,

- некоторые (все) автоматы «сливаются» (случай, когда все автоматы сливаются, по сути является более общим случаем «построения общего поискового автомата». Использование подхода, при котором результатом «слияния» оказывается не один, а несколько автоматов, связано с тем, что при построении одного поискового автомата рост количества неоднозначностей (альтернатив) приводит к экспоненциальному росту количества состояний результирующего автомата),

- сохраняют на диск полученные после слияния поисковые и инвертированные автоматы.

Поиск в тексте осуществляется поисковым автоматом, построенным на основе регулярных выражений объектов. Результатом поиска является список всех вхождений объектов во входную последовательность. Для каждого вхождения задают:

- текстовое имя объекта,

- идентификатор регулярного выражения, по которому было совпадение,

- начальная позиция в тексте,

- длина в символах,

- нормальная форма (канонический вид). Длина нормальной формы не обязательно равна длине части текста, соответствующей объекту, поскольку в процессе нормализации лишние символы, разделители могут быть опущены.

Например, пусть на вход системы, в которой реализован способ по настоящему изобретению, пришла последовательность «4000000000006300 89 №78 9 9 998 4000-0000-0000-6». Регулярным выражениям удовлетворяют подстроки «4000000000006300», « 89 №78 9 9 998 » и « 4000-0000-0000-6». Для каждой из строк вызывается соответствующая функция верификации (если она есть). Строка «4000000000006300» удовлетворяет регулярному выражению для номера кредитной карты, но не проходит верификацию (неверная контрольная сумма). Остальные строки верификацию проходят. В итоге после нормализации получаем найденные объекты:

- Дипломатический паспорт - 897899998

- Кредитная карта - 4000000000006

Здесь для обнаружения номера кредитных карт используется регулярное выражение [^\n\r\t:]([0-9][Λ-]?){12,15}[0-9] $|[,;:.?!]?[\n\r\t]. В этом выражении первая часть [^\n\r\t:] представляет собой маркер начала текстового объекта. Эта часть означает, что детектируют номер кредитной карты, только если перед ним стоит символ переноса строки, пробел, табуляция, двоеточие, или же объект находится в начале файла (сообщения, выделенного текста и т.д.). Для описания начала потока на языке регулярных выражений используется символ ^.

Следующая часть ([0-9][Λ-]?){12,15}[0-9] представляет собой непосредственно номер кредитной карты. Регулярное выражение описывает строки, содержащие от 13 до 16 цифр включительно, причем между двумя любыми символами может быть один из разделителей - пробел, дефис или слэш.

Завершающая часть $|[„:.?!]?[\n\r\t] представляет собой маркер окончания текстового объекта. Аналогично маркеру начала, этот маркер окончания означает, что номер кредитной карты должен находиться в конце файла (символ $), или же после него должен идти символ переноса строки, табуляция, перенос каретки, пробел или какой-либо из знаков пунктуации ([,;:.?!]?).

Все объекты, найденные по регулярному выражению, проходят процедуру верификации. Для номеров кредитных карт проверяют однородность разделителей (между цифрами должен быть один и тот же разделитель), группирование цифр (примерами корректного группирования являются: ХХХХХХХХХХХХХХХХ, ХХХХ-ХХХХ-ХХХХ-ХХХХ, ХХХХ ХХХХ ХХХХ X). Помимо этого проверяется контрольная сумма цифр кредитной карты в соответствии с ISO/IEC 7812.

Понятно, что приведенный пример служит лишь иллюстративным целям.

Таким образом, способ обнаружения текстовых объектов по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро обнаруживать в каком-либо документе регулярные выражения, преодолевая тем самым недостатки известных решений.

1. Способ обнаружения текстовых объектов, заключающийся в том, что:
формируют для каждого подлежащего обнаружению текстового объекта список регулярных выражений, каждое из которых описывает данный текстовый объект;
создают синтаксический анализатор, предназначенный для осуществления синтаксического анализа упомянутых регулярных выражений;
генерируют на основе упомянутого синтаксического анализатора индивидуальный конечный автомат для каждого упомянутого регулярного выражения;
объединяют индивидуальные конечные автоматы всех регулярных выражений в по меньшей мере один поисковый автомат, предназначенный для поиска упомянутых текстовых объектов;
генерируют для каждого из упомянутых индивидуальных конечных автоматов соответствующий инвертированный конечный автомат, каждый из которых предназначен для распознавания в обратном порядке соответствующего регулярного выражения в упомянутых текстовых объектах;
обнаруживают, с помощью упомянутых поисковых автоматов, окончание каждой строки, входящей в язык какого-либо из упомянутых регулярных выражений;
запускают соответствующий обнаруженному регулярному выражению инвертированный конечный автомат от обнаруженного окончания строки для нахождения начала строки, представляющей собой упомянутый текстовый объект, соответствующий данному регулярному выражению.

2. Способ по п. 1, в котором дополнительно верифицируют по меньшей мере некоторые из обнаруженных регулярных выражений.

3. Способ по п. 1, в котором упомянутый общий конечный автомат минимизируют относительно количества его состояний.

4. Способ по п. 1, в котором упомянутый поисковый автомат преобразуют в детерминированный конечный автомат в случае наличия неоднозначных переходов в упомянутом поисковом автомате.

5. Способ по п. 1, в котором упомянутый синтаксический анализатор создают с учётом контекста каждого из языков, используемых в подлежащих проверке документах, при этом упомянутый контекст языка содержит множество значимых символов этого языка.

6. Способ по п.5, в котором в упомянутом синтаксическом анализаторе реализуют оператор «.», обеспечивающий выдачу всех символов, которыми может оперировать конкретное регулярное выражение.

7. Способ по п. 6, в котором в упомянутом синтаксическом анализаторе реализуют оператор «х-у», обеспечивающий выдачу всех символов используемого языка, находящихся в конкретном регулярном выражении в последовательности символов, заключённой между символом «х» и символом «у».

Похожие патенты:

Обработка электронных чернил // 2485579

Изобретение относится к обработке электронных чернил. .

Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка // 2480822

Изобретение относится к способам разрешения кореференции в чувствительной к неоднозначности системе обработки естественного языка, в частности к интеграции функциональных возможностей разрешения кореференции в систему обработки документа.

Способ изучения системы письма китайскими иероглифами и основанных на китайских иероглифах систем письма других языков // 2470354

Изобретение относится к способу изучения системы письма китайскими иероглифами и основанной на китайских иероглифах системы письма для других языков. .

Системы и способы манипулирования данными в системе хранения данных // 2413984

Способ и система для создания, хранения, управления и потребления специфичных культуре данных // 2412474

Изобретение относится к системам локализации контента и программного обеспечения. .

Устройство кросс-кластерной управляемой перестановки информации, хранимой в персональной эвм // 2409842

Изобретение относится к области вычислительной техники, в частности к кодированию информации, и может быть использовано в системах коммуникации и защиты информации от несанкционированного доступа.

Способ и система форматирования по условию, активируемая одним щелчком мыши, для программ // 2398271

Изобретение относится к средствам форматирования по условию отображаемых данных. .

Способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации // 2395117

Изобретение относится к области сетей передачи данных, а более конкретно - к системе и способу управления документооборотом и процессами печати. .

Отображение таблиц с помощью команд на естественном языке // 2380747

Изобретение относится к области управления приложениями с помощью речевых команд. .

Способ верификации программного обеспечения распределительных вычислительных комплексов и система для его реализации // 2373570

Изобретение относится к средствам автоматизации обучения и научных исследований и может быть использовано в интерактивных системах автоматизации научно-исследовательских работ в процессе верификации программного обеспечения (ПО) распределенных вычислительных комплексов (РВК).

Итеративное пополнение электронного словника // 2549118

Изобретение относится к способам пополнения электронных словников - списков терминов с метками. Техническим результатом является повышение эффективности использования электронных словников в задачах анализа текста за счет обеспечения возможности назначения терминам осмысленных весов и автоматического пополнения словников с помощью обучающего множества текстов. В способе пополнения словника из обучающего множества электронных документов с помощью вычислительной машины (персонального компьютера, сервера и пр.) формируют обучающее подмножество, тексты всех электронных документов которого содержат термины словника. К словам, встречающимся в обучающем подмножестве, применяют критерии выбора характеристик. Выбранным с помощью критериев словам назначают метки, выбранным словам опционально назначают веса. Выбранные слова добавляют в словник с соответствующими метками (и весами). 2 н. и 14 з.п. ф-лы, 13 ил.

Способ выявления персональных данных открытых источников неструктурированной информации // 2549515

Изобретение относится к области информационных технологий. Техническим результатом является обеспечение высокой релевантности результатов выдачи при выявлении персональных данных в открытых информационных источниках и в текстовых файлах наиболее распространенных форматов. Выявление персональных данных достигается посредством лингвистических технологий, реализованных при помощи сервера сбора данных, сервера лингвистической обработки, сервера приложений. В предлагаемом способе создают задание на основе поступающих через АРМ администратора параметров по обходу открытых источников. Затем загружают текст, производят обход открытых источников и загрузку текстов либо передачу текстов из внешней системы. Выделяют ссылки из загруженных текстов для их добавления к адресам дальнейшего обхода. Извлекают текст, бинарные файлы преобразуются к текстовому формату. Подготовленный к разбору текст разбирают и выявляют сущности, производят выделение сущностей персональных данных в тексте. Выявляют персональные данные, выделяют факты (сущности, выявленные на предыдущем этапе, связанные с персонами) персональных данных в тексте. 6 з.п. ф-лы, 3 ил.

Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители // 2556425

Изобретение относится к кластеризации документов по их семантической близости. Техническим результатом является упрощение и ускорение как обработки электронных документов, так и поиска в кластеризованной совокупности документов, релевантных поисковому запросу. В способе автоматической итеративной кластеризации электронных документов по семантической близости преобразуют каждый электронный документ в соответствующий многомерный вектор в многомерном пространстве, размерности которого определяются содержащимися в электронном документе термами. Находят меру близости полученного вектора к каждому из векторов уже имеющихся кластеров, объединяющих семантически близкие документы, обработанные ранее. Дополняют подлежащим обработке документом тот из кластеров, для которого найденная мера близости минимальна. Определяют для дополненного кластера его новый вектор. Принимают в качестве темы дополненного кластера название того из документов в данном кластере, для которого мера близости его вектора к определенному новому вектору минимальна. Таким образом, при поступлении новых электронных документов уже имеющиеся кластеры обрабатывают как отдельные документы, а не как множества документов. 4 н. и 8 з.п. ф-лы, 6 ил.

Преобразование контента на компьютере // 2571512

Изобретение относится к компьютерной технике, более конкретно к области преобразования форматов файлов для расширения возможностей прикладных программ и веб-браузеров по воспроизведению документов. Техническим результатом является уменьшение времени задержки отображения документа во время преобразования формата документа в формат, пригодный для отображения веб-браузером. В способе для отображения контента на компьютере принимают из веб-браузера запрос на просмотр контента в собственном формате контента. После приема запроса трансформируют части контента, воплощенные в его собственном формате, в части преобразованного для просмотра контента, воплощенные в формате файла, совместимом с веб-браузером. Во время трансформирования частей контента предоставляют части преобразованного для просмотра контента в веб-браузер пошагово. При этом преобразованный контент выполнен с возможностью обеспечивать полное точное представление контента через веб-браузер без вызова внешнего средства просмотра. 2 н. и 11 з.п. ф-лы, 6 ил.

Визуализация текста на естественном языке // 2580022

Изобретение относится к визуализации текста на естественном языке, а именно к преобразованию текста в изображение, анимацию или трехмерную сцену. Техническим результатом является получение арсенала средств для визуализации текста, написанного на естественном языке, в виде анимированной трехмерной сцены. В способе визуализации текста получают текст на естественном языке. Проводят автоматический семантический разбор текста с целью получения структурированной семантической сети. Обрабатывают результаты семантического разбора, получая объекты, субъекты, действия и последовательности действий. Выбирают подходящую упомянутым объектам, субъектам и действиям локацию и задают первоначальное размещение объектов. Формируют первоначальную трехмерную сцену, используя локацию, объекты, субъекты, действия и первоначальное размещение. Определяют и последовательно записывают изменения сцены в соответствии с полученной в результате семантического разбора последовательностью действий. Формируют видеоролик или набор картинок, которые воспроизводят упомянутое изменение сцены в сформированной ранее трехмерной сцене, и визуализируют видеоролик или набор картинок. 2 н. и 13 з.п. ф-лы, 1 ил.

Способ и система для глобальной идентификации в коллекции документов // 2591175

Изобретение относится к области обработки естественного языка, а именно к извлечению и поиску информации по коллекции документов. Технический результат - эффективная идентификация информационных объектов, представленных в документе, и информационных объектов в хранилище документов. Способ автоматической идентификации информационных объектов, представленных в документе, и информационных объектов в хранилище документов, соответствующих одному и тому же объекту реального мира, способ для компьютерной системы, заключающийся в том, что выполняют поиск шаблонов глобальной идентификации и комбинаций шаблонов глобальной идентификации в документе, выполняют поиск тех же шаблонов глобальной идентификации и их комбинаций в хранилище документов, производят поиск пар информационных объектов, информационного объекта из документа и информационного объекта из хранилища, удовлетворяющих одним и тем же комбинациям шаблонов, проверяют найденные пары на непротиворечивость и выбирают из них те информационные объекты, которые могут быть объединены и сохранены в хранилище в один объект, и добавляют информацию об одном или более информационном объекте из документа в хранилище документов. 3 н. и 18 з.п. ф-лы, 8 ил.

Разрешение семантической неоднозначности при помощи статистического анализа // 2592395

Изобретение относится к способам автоматической обработки текста на естественном языке. Техническим результатом является повышение точности синтаксического и семантического анализа, выражающейся в распознавании смысла текста, точности машинного перевода, релевантности результатов информационного поиска. Технический результат достигается за счет возможности динамически в автоматическом режиме пополнять словари, реестры слов, семантические описания языка новыми словами, вследствие чего повышается эффективность систем, решающих задачи автоматической обработки текста. Компьютерное устройство получает текст, содержащий слово. Слово сравнивается со словами из реестра значений. Реестр значений содержит слова и соответствующие им понятия. При соотнесении слова со словом из реестра значений выявляется соответствующее понятие для слова путем сравнения каждого понятия, относящегося к слову из реестра, со словом. При выявлении соответствующего понятия для слова это понятие назначается для слова. При невыявлении соответствующего понятия для слова для данного слова добавляется новое понятие в реестр значений на основе этого слова. 3 н. и 18 з.п. ф-лы, 18 ил.

Способ и система для машинного извлечения и интерпретации текстовой информации // 2592396

Изобретение относится к извлечению и интерпретации информации из неструктурированных текстов на естественных языках, в частности, к машинному извлечению и интерпретации информации в текстовых документах. Технический результат - эффективный анализ документов для извлечения и интерпретации информации в текстовых документах. Машинный способ извлечения информации из текстового документа, включающий выполнение семантико-синтаксического анализа предложений документа для создания семантико-синтаксических структур предложений, применение продукционных правил к семантико-синтаксическим структурам, чтобы создать набор логических утверждений об информационных объектах, содержащихся в данном документе, при этом продукционные правила основаны на лингвистических признаках и лексико-морфологических свойствах семантико-синтаксических структур и онтологий предметной области предложений, и использование набора логических утверждений об информационных объектах, содержащихся в документе для построения согласованного с онтологией RDF-графа. 3 н. и 13 з.п. ф-лы, 16 ил.

Система и способ создания и использования пользовательских онтологических моделей для обработки пользовательского текста на естественном языке // 2596599

Изобретение относится к области обработки текстов на естественном языке, в частности к созданию и использованию пользовательских онтологических моделей и пользовательских семантических словарей для обработки текстов, предоставленных пользователем на естественном языке. Техническим результатом является повышение точности обработки текстовых данных. Способ для создания и применения пользовательской онтологической модели для обработки предоставленного пользователем текста на естественном языке включает получение определений пользовательских онтологических объектов и создание пользовательской онтологической модели, включающей структуру пользовательского экземпляра на основе определения и имеющую идентификатор. Семантико-синтаксическое дерево, созданное на основе предоставленного пользователем текста, анализируется. Информационные объекты создаются при анализировании на основе пользовательских онтологических объектов. Выполняют дальнейшую обработку предоставленного пользователем текста на естественном языке. 3 н. и 43 з.п. ф-лы, 23 ил.

Извлечение информации из структурированных документов, содержащих текст на естественном языке // 2607976

Изобретение относится к способу, машиночитаемому носителю данных и системе извлечения данных из структурированного документа. Технический результат заключается в повышении точности формирования объекта структурированного документа за счет дополнительного анализа таблицы и модификации формируемого объекта данных, представленного таблицей, на основе этого анализа. Способ заключается в получении вычислительным устройством таблицы, содержащей текст на естественном языке, идентификации заголовка таблицы и множества ячеек, образующих строки и столбцы, выполнении семантико-синтаксического анализа текста на естественном языке для получения множества семантических структур, интерпретации множества семантических структур с использованием первого набора продукционных правил для получения объекта данных, представленного таблицей, где продукционные правила этого набора включают логические выражения, определенные на структурных шаблонах, выполнении анализа заголовка таблицы для определения множества онтологических классов, ассоциированных с соответствующими столбцами таблицы, и модификации объекта данных, представленного таблицей, используя второй набор продукционных правил, где продукционные правила этого набора связаны с онтологическими классами, ассоциированными со столбцами указанной таблицы. 3 н. и 15 з.п. ф-лы, 19 ил.