Патенты автора Пронин Александр Константинович (RU)

Изобретение относится к системам и методам создания корпусов текстов для различных исследовательских и других целей. Техническим результатом является повышение точности отделения текстов пользователей от остального контента веб-страниц при автоматическом построении корпуса текстов. В способе построения корпуса текстов на основе интернет-форумов для компьютерной системы строят объектную модель документа в виде древовидной DOM-структуры данных. Выделяют группу однотипных вершин в дереве объектной модели документа. Удаляют необязательные элементы оформления со страниц. Осуществляют слияние нелистовых вершин с одинаковыми именами в дереве объектной модели и объединение листовых вершин с одинаковыми свойствами. Выполняют оценку вершин и фильтрации групп. Строят выражения ХРАТН и применяют полученные выражения ХРАТН к набору файлов, содержащих все документы с выбранного форума. 3 н. и 7 з.п. ф-лы, 3 ил.

 


Наверх