Патенты автора Копылов Николай Юрьевич (RU)

Изобретение относится к области построения корпуса документов. Технический результат заключается в обеспечении автоматизации анализа корпуса документов для определения тем корпуса документов. Технический результат достигается за счет выполнения классификации, с использованием классификатора, каждого документа во втором наборе документов по одной или более темам из числа исходных тем, где классификация включает определение неклассифицированного подмножества документов из второго набора документов, которые не были отнесены ни к одной из исходных тем, кластеризацию неклассифицированного подмножества документов по новым темам, не входящим в исходные темы, и классификацию каждого документа из неклассифицированного подмножества документов по одной или более темам из числа новых тем. 3 н. и 16 з.п. ф-лы, 7 ил.

Изобретение относится к системам и методам создания корпусов текстов для различных исследовательских и других целей. Техническим результатом является повышение точности отделения текстов пользователей от остального контента веб-страниц при автоматическом построении корпуса текстов. В способе построения корпуса текстов на основе интернет-форумов для компьютерной системы строят объектную модель документа в виде древовидной DOM-структуры данных. Выделяют группу однотипных вершин в дереве объектной модели документа. Удаляют необязательные элементы оформления со страниц. Осуществляют слияние нелистовых вершин с одинаковыми именами в дереве объектной модели и объединение листовых вершин с одинаковыми свойствами. Выполняют оценку вершин и фильтрации групп. Строят выражения ХРАТН и применяют полученные выражения ХРАТН к набору файлов, содержащих все документы с выбранного форума. 3 н. и 7 з.п. ф-лы, 3 ил.

Изобретение относится к способам пополнения электронных словников - списков терминов с метками. Техническим результатом является повышение эффективности использования электронных словников в задачах анализа текста за счет обеспечения возможности назначения терминам осмысленных весов и автоматического пополнения словников с помощью обучающего множества текстов. В способе пополнения словника из обучающего множества электронных документов с помощью вычислительной машины (персонального компьютера, сервера и пр.) формируют обучающее подмножество, тексты всех электронных документов которого содержат термины словника. К словам, встречающимся в обучающем подмножестве, применяют критерии выбора характеристик. Выбранным с помощью критериев словам назначают метки, выбранным словам опционально назначают веса. Выбранные слова добавляют в словник с соответствующими метками (и весами). 2 н. и 14 з.п. ф-лы, 13 ил.

 


Наверх