Патенты автора ЦЗЭН Хунлэй (CN)

Изобретение относится к средствам извлечения тематических предложений веб-страниц. Технический результат заключается в повышении точности тематических предложений, извлеченных с веб-страниц. Получают возможные веб-страницы и предварительно построенную модель машинного обучения, причем каждая возможная веб-страница содержит множество предварительно отобранных возможных тематических предложений, причем каждое возможное тематическое предложение содержит несколько словесных сегментов. Определяют значения словесных характеристик, указывающие на уровни важности словесных сегментов в каждой возможной веб-странице соответственно, и вводят упомянутые значения словесных характеристик в модель машинного обучения для получения значения важности для каждого словесного сегмента. Для каждой возможной веб-страницы определяют значение частичного порядка для каждого возможного тематического предложения в соответствии со значениями важности словесных сегментов, содержащихся в возможном тематическом предложении. Для каждой возможной веб-страницы, выбирают одно из множества возможных тематических предложений, связанное со значением частичного порядка, превышающим предварительно заданное пороговое значение, в качестве целевого тематического предложения возможной веб-страницы. 3 н. и 17 з.п. ф-лы, 6 ил.

Изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов. Техническим результатом является сокращение времени ответа при поиске и снижение расходов на вычисление. В способе иерархической фильтрации документов выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формируют первый список документов. Вычисляют значение качества каждого документа в первом списке документов. Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа, чтобы получить второй список документов. Фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов. В соответствии с изобретением фильтруется фильтруемый набор документов текущего слоя фильтрации документов, так что значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. 2 н. и 10 з.п. ф-лы, 3 ил.

 


Наверх