Способ и устройство для планирования web-обходчиков в соответствии с поиском по ключевым словам

Изобретение относится к средствам планирования Web-обходчиков в соответствии с поиском по ключевым словам. Технический результат заключается в расширении арсенала средств планирования Web-обходчиков в соответствии с поиском по ключевым словам. Указанный результат достигается за счет применения способа, который содержит этапы, на которых: планирующая сторона принимает команду запроса задания, посланную выполняющим обход узлом, получает адрес ссылки вторичной загрузки из приоритетного сегмента памяти, генерирует задания, добавляет задания в список заданий, получает адреса ссылок ключевых слов из динамического сегмента памяти, выводит адреса производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерирует задания количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавляет задания количеств страниц в список заданий, получает адрес ссылки ключевого слова из базового сегмента памяти, генерирует задания, добавляет сгенерированные задания в список заданий и возвращает список заданий к выполняющему обход узлу. 2 н. и 14 з.п. ф-лы, 5 ил.

 

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к области техники, касающейся поисковых агентов для сети Интернет (Web crawler, Web-обходчиков, пауков), в частности, к способу и системе для планирования Web-обходчиков в соответствии с поиском по ключевым словам.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

Поисковые агенты для сети Интернет (Web) (Web-обходчики, Web-сборщики, ʺчервякиʺ, краулеры), основанные на поиске по ключевым словам, являются основой для получения информации ключевых слов. Однако обновление информации вызвало бы случаи повторных или неполных обходов Web-обходчиков, особенно на целевых вебсайтах, где информация обновляется довольно часто, например, вебсайтах микроблогов, таких как Sina Microblog, и поисковых вебсайтах, таких как Baidu и т.д. В случае популярных ключевых слов, для Web-обходчиков было бы затруднительно получить полный обход данных вследствие довольно быстрого обновления информации, в то время как в случае непопулярных ключевых слов будут иметься повторные обходы информации, ввиду относительно медленного обновления информации.

В существующей практике, для ключевых слов устанавливаются различные уровни популярности, и затем ключевые слова обходятся (просматриваются при поиске) в соответствии с их уровнями популярности, так что ключевые слова с высоким уровнем популярности обходятся более часто.

Однако существующая практика имеет следующие недостатки: (1) необходимо получать уровень популярности для каждого ключевого слова и затем устанавливать частоту обхода в соответствии с уровнем популярности; и (2) многие запросы адресов ссылок вторичной загрузки вовлекаются в процесс первоначального запроса, и существующая схема не различает их.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Ввиду вышеуказанного, необходимо создать способ и систему для планирования веб-обходчиков в соответствии с поиском по ключевым словам, чтобы решить техническую проблему, состоящую в том, что частота обхода является неточной ввиду необходимости предварительного определения уровня популярности для ключевого слова в существующем уровне техники, когда частота обхода устанавливается посредством установки уровня популярности для ключевого слова.

Способ планирования Web-обходчиков в соответствии с поиском по ключевым словам характеризуется тем, что он содержит:

этап 12 приема планирующей стороной команды запроса задания, посланной выполняющим обход узлом;

этап 13 получения планирующей стороной адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки, генерации заданий, добавления сгенерированных заданий в список заданий, и если достигнуты количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, выполнения этапа (16), в противном случае выполнения этапа (14), при этом адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, обход которых выполнен выполняющим обход узлом, в соответствии с заданием в списке заданий;

этап 14 получения планирующей стороной адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса многостраничных ссылок ключевых слов, вывода адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавления заданий количеств страниц в список заданий, и если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, выполнения этапа (16), в противном случае выполнения этапа (15), при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в динамическом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2;

этап 15 получения планирующей стороной адреса ссылки ключевого слова из базового сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий, добавления сгенерированных заданий в список заданий, и если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, выполнения этапа (16), при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в базовом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2; и

этап 16 возврата планирующей стороной списка заданий к выполняющему обход узлу, при этом выполняющий обход узел выполняет задание из списка заданий в соответствии с принятым списком заданий.

Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам характеризуется тем, что она содержит планирующую сторону и по меньшей мере один выполняющий обход узел, который осуществляет связь с планирующей стороной,

планирующая сторона содержит:

модуль приема команды запроса задания для приема команды запроса задания, посланной выполняющим обход узлом;

модуль генерации заданий приоритетного сегмента памяти для получения адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки, генерации заданий и добавления сгенерированных заданий в список заданий, и если достигнуты количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, то исполняется модуль возврата списка заданий, в противном случае исполняется модуль генерации заданий динамического сегмента памяти, при этом адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, обход которых выполнен выполняющим обход узлом в соответствии с заданием в списке заданий;

модуль генерации заданий динамического сегмента памяти для получения адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса многостраничных ссылок ключевых слов, вывода адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавления заданий количеств страниц в список заданий, и если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, в противном случае исполняется модуль генерации заданий динамического сегмента памяти, при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в динамическом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2;

модуль генерации заданий базового сегмента памяти для получения адреса ссылки ключевого слова из базового сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий, добавления сгенерированных заданий в список заданий, и если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в базовом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2; и

модуль возврата списка заданий к выполняющему обход узлу;

и выполняющий обход узел содержит:

модуль отсылки команды запроса задания для отсылки команды запроса задания к планирующей стороне, и

модуль выполнения задания для выполнения задания из списка заданий в соответствии с принятым списком заданий.

В настоящем изобретении, приоритетный сегмент памяти, динамический сегмент памяти и базовый сегмент памяти все являются виртуальными сегментами памяти. Виртуальные сегменты памяти предоставляются с различными уровнями приоритета, и адреса ссылок различных типов сохраняются в виртуальных сегментах памяти так, что адреса ссылок с относительно высокими уровнями популярности помещаются в виртуальные сегменты памяти с относительно высокими уровнями приоритета. Путем настройки количеств заданий, разрешенных для добавления из каждого виртуального сегмента памяти, количества адресов ссылок различных типов настраиваются гибким образом. Кроме того, уровень популярности адресов ссылок не устанавливается искусственным образом, а устанавливается в соответствии с действительными количествами страниц, просмотренных в соответствии с адресом ссылки, так что популярные ключевые слова просматриваются более часто, чтобы избежать пропуска данных, в то время как повторный просмотр непопулярных ключевых слов сокращается.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг. 1 - блок-схема последовательности операций способа для планирования Web-обходчиков в соответствии с поиском по ключевым словам в соответствии с настоящим изобретением.

Фиг. 2 - схематичное представление модулей системы для планирования Web-обходчиков в соответствии с поиском по ключевым словам в соответствии с настоящим изобретением.

Фиг. 3 - схематичное представление структуры системы в соответствии с примерным вариантом настоящего изобретения.

Фиг. 4 - блок-схема последовательности операций планировщика сегментов памяти (модуля планирования и управления сегментами памяти) в соответствии с примерным вариантом настоящего изобретения.

Фиг. 5 - блок-схема последовательности операций модуля обновления сегментов памяти в соответствии с примерным вариантом настоящего изобретения.

ДЕТАЛЬНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Настоящее изобретение описывается ниже детально со ссылками на чертежи и конкретные варианты осуществления.

Фиг. 1 иллюстрирует блок-схему последовательности операций способа для планирования Web-обходчиков в соответствии с поиском по ключевым словам в соответствии с настоящим изобретением, причем способ содержит:

этап 11 посылки выполняющим обход узлом команды запроса задания к планирующей стороне;

этап 12 приема планирующей стороной команды запроса задания, посланной выполняющим обход узлом;

этап 13 получения планирующей стороной адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки, генерации заданий, добавления заданий в список заданий, и если достигнуты количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, выполнения этапа (16), в противном случае выполнения этапа (14), при этом адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, обход которых выполнен выполняющим обход узлом, в соответствии с заданием в списке заданий;

этап 14 получения планирующей стороной адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса многостраничных ссылок ключевых слов, вывода адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавления заданий количеств страниц в список заданий, и если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то выполнения этапа (16), в противном случае выполнения этапа (15), при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в динамическом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2;

этап 15 получения планирующей стороной адреса ссылки ключевого слова из базового сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий, добавления сгенерированных заданий в список заданий, и если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, выполнения этапа (16), при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в базовом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2; и

этап 16 возврата планирующей стороной списка заданий к выполняющему обход узлу, при этом выполняющий обход узел выполняет задание из списка заданий в соответствии с принятым списком заданий.

На этапе 13, обработка является специализированной для адресов ссылок вторичной загрузки. Адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, пройденных выполняющим обход узлом в соответствии с заданием в списке заданий. Например, когда выполняется поиск ʺJingdongʺ в Baidu, страница результатов поиска, включающая в себя множество результатов поиска, будет показывать каждый результат поиска в соответствии с адресом ссылки, и адрес ссылки является адресом ссылки вторичной загрузки. Адреса ссылок, которые требуют вторичной загрузки, могут быть получены из анализа просмотренных страниц, и имеются относительно зрелые методы анализа, которые здесь не будут приводиться повторно.

На этапах 14 и 15 адреса ссылок ключевых слов обозначают адреса ссылок страниц результатов поиска, сгенерированных на целевом вебсайте в соответствии с ключевым словом. Например, когда выполняется поиск ʺJingdongʺ в Baidu, будет показана страница результатов поиска, сгенерированная в соответствии с ключевым словом ʺJingdongʺ. Если ключевое слово является популярным, одна страница результатов поиска не могла бы включать в себя все результаты поиска, и количества страниц будут показаны на странице поиска. Количества страниц используются для указания, что имеются страницы результатов поиска в некоторых количествах страниц, включающих в себя ключевое слово. Так, чем больше количества страниц, тем более популярным является ключевое слово. Таким образом, адреса ссылок ключевых слов с количествами страниц, превышающими предварительно установленный порог для количеств страниц, помещаются в динамический сегмент памяти и обрабатываются с приоритетом на этапе 14. Решение принимается в соответствии с действительными количествами страниц, таким образом, уровень популярности ключевого слова может быть отражен более объективно.

Количества, разрешенные для добавления из приоритетного сегмента памяти, обозначают количества адресов ссылок вторичной загрузки в приоритетном сегменте памяти, разрешенные для добавления в список заданий; количества, разрешенные для добавления из динамического сегмента памяти, обозначают количества адресов ссылок ключевых слов в динамическом сегменте памяти, разрешенные для добавления в список заданий; и количества, разрешенные для добавления из базового сегмента памяти, обозначают количества адресов ссылок ключевых слов в базовом сегменте памяти, разрешенные для добавления в список заданий.

В одном из вариантов осуществления, этап 13 конкретно содержит:

получение адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки;

генерацию заданий;

добавление сгенерированных заданий в список заданий;

удаление адресов ссылок вторичной загрузки, для которых было сгенерировано задание, из приоритетного сегмента памяти; и

если количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, достигнуты, выполнение этапа 16,

в противном случае, если приоритетный сегмент памяти дополнительно хранит адреса ссылок вторичной загрузки, выполнение этапа 13, и

если все адреса ссылок вторичной загрузки удалены из приоритетного сегмента памяти, выполнение этапа 14.

В этом варианте осуществления, адреса ссылок вторичной загрузки исполняются с приоритетом и удаляются после исполнения только однократно, чтобы избежать повторных обходов.

В одном из вариантов осуществления, этап 14 конкретно содержит:

получение незапланированных адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса ссылок ключевых слов;

вывод адресов производных ссылок количеств страниц в соответствии с адресами ссылок ключевых слов;

генерацию заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц и добавление заданий в список заданий;

установку состояний адресов ссылок ключевых слов, для которых были сгенерированы задания, в запланированные; и

если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, выполнение этапа 16, и установку состояний всех адресов ссылок ключевых слов в динамическом сегменте памяти в незапланированные,

в противном случае, если динамический сегмент памяти дополнительно хранит незапланированные адреса ссылок ключевых слов, выполнение этапа 14, и

если динамический сегмент памяти не хранит незапланированные адреса ссылок ключевых слов, выполнение этапа 15.

В данном варианте осуществления, адреса ссылок ключевых слов в динамическом сегменте памяти, в качестве адресов ссылок, соответствующих популярным ключевым словам, будут вызываться многократно, чтобы избежать пропуска обходов (просмотров) популярных ключевых слов.

В одном из вариантов осуществления, базовый сегмент памяти содержит активный сегмент памяти и приостановленный сегмент памяти;

этап 15 конкретно содержит:

получение адреса ссылки ключевого слова с самым ранним временем планирования из активного сегмента памяти, который хранит адреса ссылок ключевых слов, генерацию заданий и добавление сгенерированных заданий в список заданий, и

увеличение времен планирования для адресов ссылок ключевых слов, для которых были сгенерированы задания, на предварительно установленное увеличение времени планирования и затем перемещение их в приостановленный сегмент памяти; и

если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, выполнение этапа 16,

в противном случае, если активный сегмент памяти дополнительно содержит адреса ссылок ключевых слов, выполнение этапа 15, и если активный сегмент памяти не хранит адресов ссылок ключевых слов, выполнение этапа 16.

В данном варианте осуществления, поскольку адреса ссылок ключевых слов в базовом сегменте памяти являются адресами ссылок, соответствующих непопулярным ключевым словам, он дополнительно конфигурируется так, что базовый сегмент памяти содержит активный сегмент памяти и приостановленный сегмент памяти, причем адреса ссылок в активном сегменте памяти будут перемещаться в приостановленный сегмент памяти, после того как они исполнены однократно, и исполняться вновь с интервалом увеличения времени планирования, чтобы избегать повторных просмотров непопулярных кодовых слов.

В одном из вариантов осуществления способ дополнительно содержит:

обход выполняющим обход узлом просматриваемых страниц в соответствии с заданием в списке заданий, анализ просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылку данных анализа к планирующей стороне;

прием планирующей стороной данных анализа;

если данные анализа являются адресами ссылок вторичной загрузки, помещение адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, помещение деталей информации в сегмент памяти данных;

если данные анализа являются количествами страниц, настройку адресов ссылок ключевых слов соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти.

Различные данные анализа помещаются в различные виртуальные сегменты памяти, чтобы реализовать обновление адресов ссылок в виртуальных сегментах памяти.

В одном из вариантов осуществления, настройка адресов ссылок ключевых слов соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти планирующей стороной конкретно содержит:

установку количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, и установку количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и

если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменение соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц;

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, перемещение соответствующих адресов ссылок ключевых слов в базовый сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, перемещение соответствующих адресов ссылок ключевых слов в динамический сегмент памяти.

В данном варианте осуществления, имеется дополнительное ограничение, что адреса ссылок ключевых слов, соответствующие количествам страниц в динамическом сегменте памяти и базовом сегменте памяти, настраиваются в соответствии со сравнением старых количеств страниц и новых количеств страниц.

В одном из вариантов осуществления, способ содержит:

обход выполняющим обход узлом просматриваемых страниц в соответствии с заданием в списке заданий, анализ просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылку данных анализа к планирующей стороне;

прием планирующей стороной данных анализа;

если данные анализа являются адресами ссылок вторичной загрузки, помещение адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, помещение деталей информации в сегмент памяти данных;

если данные анализа являются количествами страниц, установку количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, и установку количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, изменение соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, перемещение соответствующих адресов ссылок ключевых слов в активный сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, перемещение соответствующих адресов ссылок ключевых слов в динамический сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, поиск в приостановленном сегменте памяти и перемещение адресов ссылок ключевых слов, времена планирования для которых в приостановленном сегменте памяти достигли текущего времени, в активный сегмент памяти.

В данном варианте осуществления имеется дополнительное ограничение, что адреса ссылок ключевых слов, соответствующие количествам страниц в динамическом сегменте памяти и базовом сегменте памяти, настраиваются в соответствии со сравнением старых количеств страниц и новых количеств страниц, и в приостановленном сегменте памяти выполняется поиск, если необходимо избегать длительного сохранения адресов ссылок в приостановленном сегменте памяти.

В одном из вариантов осуществления, количества, разрешенные для добавления из динамического сегмента памяти, составляют больше, чем количества, разрешенные для добавления из базового сегмента памяти. За счет конфигурирования таким образом, что количества, разрешенные для добавления из динамического сегмента памяти, составляют больше, чем количества, разрешенные для добавления из базового сегмента памяти, больше ресурсов используется для поиска по популярным ключевым словам.

Фиг. 2 является схематичным представлением модулей системы для планирования Web-обходчиков в соответствии с поиском по ключевым словам в соответствии с настоящим изобретением, характеризуемой тем, что система содержит планирующую сторону 21 и по меньшей мере один выполняющий обход узел 22, который осуществляет связь с планирующей стороной 21,

планирующая сторона 21 содержит:

модуль 211 приема команды запроса задания для приема команды запроса задания, посланной выполняющим обход узлом;

модуль 212 генерации заданий приоритетного сегмента памяти для получения адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки, генерации заданий и добавления сгенерированных заданий в список заданий, и если достигнуты количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, то исполняется модуль возврата списка заданий, в противном случае исполняется модуль генерации заданий динамического сегмента памяти, при этом адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, обход которых выполнен выполняющим обход узлом в соответствии с заданием в списке заданий;

модуль 213 генерации заданий динамического сегмента памяти для получения адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса многостраничных ссылок ключевых слов, получения адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавления заданий количеств страниц в список заданий, и если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, в противном случае исполняется модуль генерации заданий динамического сегмента памяти, при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в динамическом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2;

модуль 214 генерации заданий базового сегмента памяти для получения адреса ссылки ключевого слова из базового сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий, добавления сгенерированных заданий в список заданий, и если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в базовом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше, чем 2; и

модуль 215 возврата списка заданий для возврата списка заданий к выполняющему обход узлу;

и выполняющий обход узел 22 содержит:

модуль 221 посылки команды запроса задания для посылки команды запроса задания к планирующей стороне, и

модуль 222 выполнения задания для выполнения задания из списка заданий в соответствии с принятым списком заданий.

В одном из вариантов осуществления, модуль 212 генерации заданий приоритетного сегмента памяти конкретно используется для:

получения адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки;

генерации заданий;

добавления сгенерированных заданий в список заданий и

удаления адресов ссылок вторичной загрузки, для которых было сгенерировано задание, из приоритетного сегмента памяти;

и

если количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, достигнуты, то исполняется модуль 215 возврата списка заданий,

в противном случае, если приоритетный сегмент памяти дополнительно хранит адреса ссылок вторичной загрузки, то исполняется модуль 212 генерации заданий приоритетного сегмента памяти, и

если все адреса ссылок вторичной загрузки удалены из приоритетного сегмента памяти, то исполняется модуль 213 генерации заданий динамического сегмента памяти.

В одном из вариантов осуществления, модуль 213 генерации заданий динамического сегмента памяти конкретно используется для:

получения незапланированных адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса ссылок ключевых слов;

вывода адресов производных ссылок количеств страниц соответствующих адресам ссылок ключевых слов;

генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц и добавления заданий в список заданий и

установки состояний адресов ссылок ключевых слов, для которых были сгенерированы задания, в запланированные; и

если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то исполняется модуль 215 возврата списка заданий, и состояния всех адресов ссылок ключевых слов в динамическом сегменте памяти устанавливаются в незапланированные,

в противном случае, если динамический сегмент памяти дополнительно хранит незапланированные адреса ссылок ключевых слов, то исполняется модуль 213 генерации заданий динамического сегмента памяти, и

если динамический сегмент памяти не хранит незапланированные адреса ссылок ключевых слов, то исполняется модуль 214 генерации заданий базового сегмента памяти.

В одном из вариантов осуществления, базовый сегмент памяти содержит активный сегмент памяти и приостановленный сегмент памяти; модуль 214 генерации заданий базового сегмента памяти конкретно используется для:

получения адреса ссылки ключевого слова с самым ранним временем планирования из активного сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий и добавления сгенерированных заданий в список заданий, и

увеличения времен планирования для адресов ссылок ключевых слов, для которых были сгенерированы задания, на предварительно установленное увеличение времени планирования и затем перемещения их в приостановленный сегмент памяти; и

если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то исполняется модуль 215 возврата списка заданий,

в противном случае, если активный сегмент памяти дополнительно хранит адреса ссылок ключевых слов, то исполняется модуль 214 генерации заданий базового сегмента памяти, и

если активный сегмент памяти не хранит адресов ссылок ключевых слов, то исполняется модуль 215 возврата списка заданий.

В одном из вариантов осуществления, модуль выполнения задания конкретно используется для: обхода просматриваемых страниц в соответствии с заданием в списке заданий, анализа просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылки данных анализа к планирующей стороне;

планирующая сторона дополнительно содержит модуль приема данных анализа для:

приема данных анализа и

если данные анализа являются адресами ссылок вторичной загрузки, то помещения адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, то помещения деталей информации в сегмент памяти данных;

если данные анализа являются количествами страниц, то настройки адресов ссылок ключевых слов соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти.

В одном из вариантов осуществления, настройка адресов ссылок ключевых слов соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти посредством модуля приема данных анализа конкретно содержит:

установку количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, и установку количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и

если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменение соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, перемещение соответствующих адресов ссылок ключевых слов в базовый сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, перемещение соответствующих адресов ссылок ключевых слов в динамический сегмент памяти.

В одном из вариантов осуществления, модуль выполнения задания конкретно используется для:

обхода просматриваемых страниц в соответствии с заданием в списке заданий, анализа просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылки данных анализа к планирующей стороне;

и планирующая сторона дополнительно содержит модуль приема данных анализа для:

приема данных анализа, и

если данные анализа являются адресами ссылок вторичной загрузки, то помещения адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, то помещения деталей информации в сегмент памяти данных; и

если данные анализа являются количествами страниц, то установки количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, установки количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменения соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то перемещения соответствующих адресов ссылок ключевых слов в активный сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то перемещения соответствующих адресов ссылок ключевых слов в динамический сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то выполнения поиска в приостановленном сегменте памяти и перемещения адресов ссылок ключевых слов, времена планирования для которых в приостановленном сегменте памяти достигли текущего времени, в активный сегмент памяти.

В одном из вариантов осуществления, количества, разрешенные для добавления из динамического сегмента памяти, составляют больше, чем количества, разрешенные для добавления из базового сегмента памяти.

Фиг. 3 является схематичным представлением структуры системы в соответствии с примерным вариантом настоящего изобретения, причем система содержит:

модуль 311 запроса потока (треда), модуль 312 получения задания, исполнитель 313 загрузки, исполнитель 314 документа, модуль 315 счета и модуль 316 памяти данных, располагающиеся на выполняющем обход узле 31; и

приоритетный сегмент 321 памяти, динамический сегмент 322 памяти, базовый сегмент 323 памяти, активный сегмент 3231 памяти, приостановленный сегмент 3232 памяти, модуль обновления 324 сегмента памяти, сегмент 325 памяти данных и базу 326 данных, располагающиеся на планирующей стороне 32.

В этом примере, модуль планирования и управления сегментами памяти (BucketScheduler) содержит приоритетный сегмент 321 памяти, динамический сегмент 322 памяти и базовый сегмент 323 памяти. Адреса ссылок вторичной загрузки, возвращенные выполняющим обход узлом, сохраняются в приоритетном сегменте 321 памяти, и эти URL удаляются из сегмента памяти после завершения планирования. URL, составленные из ключевых слов в каждом вебсайте, сохраняются в динамическом сегменте 322 памяти, и эти URL будут производить новые URL в соответствии с результатами, возвращенными модулем счета. Производные URL не будут сохраняться, но будут планироваться вместе с URL в динамическом сегменте памяти. URL, составленные из ключевых слов в каждом вебсайте, также сохраняются в общем сегменте памяти, но не производят новых URL. Общий сегмент 323 памяти подразделяется на две группы, т.е. активный сегмент 3231 памяти и приостановленный сегмент 3232 памяти. URL в активном сегменте 3231 памяти будут ранжированы в соответствии с временами планирования, и URL с более ранними временами планирования, будут планироваться раньше. Напротив, URL в приостановленном сегменте 3232 памяти не будут планироваться. URL в этих двух сегментах памяти будут обмениваться друг с другом. После того как планирующая сторона принимает запрос задания от выполняющего обход узла, модуль планирования и управления сегментами памяти будет извлекать соответствующие URL из сегментов памяти, чтобы конструировать задание для посылки к выполняющему обход узлу. Правило для конструирования задания состоит в следующем: Предположим, что размером задания является size=1000, количества URL в приоритетном сегменте памяти (PriorityBucket) соответствуют priorityBucket=300, и количества URL в динамическом сегменте памяти (DynamicBucket) соответствуют dynamicBucket=100, и средние количества страниц для каждого URL соответствуют page=5, и количества URL в общем сегменте памяти (CommonBucket) соответствуют commonBucket=500, получаем URL из приоритетного сегмента памяти сначала с оставшимся размером задания, равным remainSize=700, и затем получаем URL из динамического сегмента памяти с оставшимся размером задания, равным remainSize=700-100*5=200, и, наконец, получаем URL из общего сегмента памяти, и если количества URL в активном сегменте памяти в общем сегменте памяти составляют не больше, чем 200, конструируем все эти URL в задание при добавлении всех этих URL в приостановленный сегмент памяти, а если количества URL в активном сегменте памяти составляют больше, чем 200, то выбираем с 1-го по 200-ый URL, ранжированные по времени планирования, чтобы сконструировать задание, и добавляем эти URL в приостановленный сегмент памяти. Если планируемые времена для URL в приостановленном сегменте памяти достигаются, то они перемещаются в активный сегмент памяти.

Фиг. 4 является блок-схемой последовательности операций модуля планирования и управления сегментами памяти. В этом примере, priorityBucket соответствует количествам, разрешенным для добавления из приоритетного сегмента памяти, dynamicBucket× средние количества страниц для каждого URL соответствует количествам, разрешенным для добавления из динамического сегмента памяти, размер задания - priorityBucket - dynamicBucket× средние количества страниц для каждого URL соответствует количествам, разрешенным для добавления из базового сегмента памяти. Как показано на фиг. 4, способ содержит:

этап S401 получения URL из приоритетного сегмента памяти при удалении их из сегмента памяти и возврата, если задание заполнено, в противном случае выполнение этапа S402;

этап S402 получения URL из динамического сегмента памяти и вывода новых URL со страницами и возврата, если задание заполнено, в противном случае выполнение этапа S403;

этап S403 получения URL из активного сегмента памяти (общего сегмента памяти), изменения следующих времен планирования для этих URL и помещения их в приостановленный сегмент памяти.

Модуль счета располагается на выполняющей обход стороне. Выполняющий обход узел извлекает количества сегментов информации на вебсайте и интервал времени между первым сегментом информации и последним сегментом информации после того, как данные были запрошены, и переносит их в модуль счета. Модуль счета вычисляет количества страниц, которые могут генерироваться ключевым словом в пределах 30 минут в соответствии с этими данными, и переносит эти данные к планирующей стороне.

Модуль обновления 324 сегментов памяти (BucketUpdater) располагается на планирующей стороне 32, и его основной функцией является обновление URL в приоритетном сегменте 321 памяти, динамическом сегменте 322 памяти и базовом сегменте 323 памяти. Данные, извлеченные выполняющим обход узлом 31, включающие в себя адреса ссылок вторичной загрузки, детали информации и количества страниц, будут все переноситься в модуль обновления 324 сегментов памяти на планирующей стороне 32. Модуль обновления 324 сегментов памяти будет обновлять различные сегменты памяти в соответствии с типами этих данных после приема этих данных. Конкретный способ, как иллюстрируется на фиг. 5, содержит:

этап S510 проверки типа данных, выполнение этапа S520, если анализируемые данные являются адресами ссылок вторичной загрузки, выполнение этапа S530, если анализируемые данные являются деталями информации, и выполнение этапа S540, если анализируемые данные являются количествами страниц;

этап S520 вставки этих данных в приоритетный сегмент памяти (PriorityBucket) для планирования планировщиком;

этап S530 вставки этих данных в сегмент памяти данных (DataBucket) для получения стороной обслуживания;

этап S540 сравнения с ранее полученными количествами страниц, возврата без каких-либо операций, если количества страниц те же самые; а если количества страниц различны:

если старые количества страниц (oldPages) составляют не меньше, чем порог (ʺthresholdʺ может быть установлен самостоятельно и равен 3 в этой схеме), т.е. oldPages>=threshold, и новые количества страниц (newPages) также составляют не меньше, чем порог, т.е. newPages>=threshold, то выполнение этапа S541;

если oldPages>=threshold, но newPages<threshold, то выполнение этапа S542;

если oldPages<threshold, но newPages>=threshold, то выполнение этапа S543;

если oldPages<threshold, но newPages<threshold, то выполнение этапа S544;

этап S541 изменения только количеств страниц, не требуя обмена сегментов памяти, поскольку URL в текущий момент находятся в динамическом сегменте памяти;

этап S542 перемещения URL в активный сегмент памяти, поскольку URL в текущий момент находятся в динамическом сегменте памяти;

этап S543 перемещения URL в динамический сегмент памяти, поскольку URL в текущий момент находятся в общем сегменте памяти; и

этап S544 сканирования приостановленного сегмента памяти, поскольку URL в текущий момент находятся в общем сегменте памяти и даже, вероятно, в приостановленном сегменте памяти, и добавление URL в приостановленном сегменте памяти, для которых наступили времена планирования, в активный сегмент памяти.

Вышеуказанные варианты осуществления только описывают различные режимы реализации настоящего изобретения и представлены в деталях, однако они не могут толковаться, чтобы ограничивать объем защиты настоящего изобретения. Следует отметить, что специалист в данной области техники может выполнить многочисленные изменения и усовершенствования без отклонения от концепции настоящего изобретения, и все они принадлежат к объему защиты настоящего изобретения. Поэтому объем патентной защиты настоящего изобретения должен определяться на основе приложенной формулы изобретения.

1. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам, отличающийся тем, что содержит:

этап (12) приема планирующей стороной команды запроса задания, посланной выполняющим обход узлом;

этап (13) получения планирующей стороной адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки, генерации заданий, добавления заданий в список заданий и, если достигнуты количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, выполнение этапа (16), в противном случае выполнение этапа (14), при этом адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, обход которых выполнен выполняющим обход узлом, в соответствии с заданием в списке заданий;

этап (14) получения планирующей стороной адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса многостраничных ссылок ключевых слов, вывода адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавления заданий количеств страниц в список заданий и, если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то выполнение этапа (16), в противном случае выполнение этапа (15), при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом веб-сайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в динамическом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше чем 2;

этап (15) получения планирующей стороной адреса ссылки ключевого слова из базового сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий, добавления сгенерированных заданий в список заданий, и если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то выполнение этапа (16), при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом веб-сайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в базовом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше чем 2; и

этап (16) возврата планирующей стороной списка заданий к выполняющему обход узлу, при этом выполняющий обход узел выполняет задание из списка заданий в соответствии с принятым списком заданий.

2. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 1, отличающийся тем, что этап (13) конкретно содержит:

получение адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки;

генерацию заданий;

добавление сгенерированных заданий в список заданий;

удаление адресов ссылок вторичной загрузки, для которых было сгенерировано задание, из приоритетного сегмента памяти; и

если количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, достигнуты, то выполнение этапа (16),

в противном случае, если приоритетный сегмент памяти дополнительно хранит адреса ссылок вторичной загрузки, то выполнение этапа (13), и

если все адреса ссылок вторичной загрузки удалены из приоритетного сегмента памяти, то выполнение этапа (14).

3. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 1, отличающийся тем, что этап (14) конкретно содержит:

получение незапланированных адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса ссылок ключевых слов;

вывод адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов;

генерацию заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц и добавление заданий в список заданий;

установку состояний адресов ссылок ключевых слов, для которых были сгенерированы задания, в запланированные; и

если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то выполнение этапа (16), и установку состояний всех адресов ссылок ключевых слов в динамическом сегменте памяти в незапланированные,

в противном случае, если динамический сегмент памяти дополнительно хранит незапланированные адреса ссылок ключевых слов, то выполнение этапа (14), и

если динамический сегмент памяти не хранит незапланированные адреса ссылок ключевых слов, то выполнение этапа (15).

4. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 1, отличающийся тем, что базовый сегмент памяти содержит активный сегмент памяти и приостановленный сегмент памяти;

этап (15) конкретно содержит:

получение адреса ссылки ключевого слова с самым ранним временем планирования из активного сегмента памяти, который хранит адреса ссылок ключевых слов, генерацию заданий и добавление сгенерированных заданий в список заданий, и

увеличение времен планирования для адресов ссылок ключевых слов, для которых были сгенерированы задания, на предварительно установленное увеличение времени планирования и затем перемещение их в приостановленный сегмент памяти; и

если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то выполнение этапа (16),

в противном случае, если активный сегмент памяти дополнительно содержит адреса ссылок ключевых слов, то выполнение этапа (15), и

если активный сегмент памяти не хранит адресов ссылок ключевых слов, то выполнение этапа (16).

5. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 1, отличающийся тем, что дополнительно содержит:

обход выполняющим обход узлом просматриваемых страниц в соответствии с заданием в списке заданий, анализ просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылку данных анализа к планирующей стороне;

прием планирующей стороной данных анализа;

если данные анализа являются адресами ссылок вторичной загрузки, то помещение адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, то помещение деталей информации в сегмент памяти данных;

если данные анализа являются количествами страниц, то настройку адресов ссылок ключевых слов, соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти.

6. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 5, отличающийся тем, что настройка адресов ссылок ключевых слов, соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти планирующей стороной, конкретно содержит:

установку количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, и установку количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и

если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменение соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то перемещение соответствующих адресов ссылок ключевых слов в базовый сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то перемещение соответствующих адресов ссылок ключевых слов в динамический сегмент памяти.

7. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 4, отличающийся тем, что содержит:

обход выполняющим обход узлом просматриваемых страниц в соответствии с заданием в списке заданий, анализ просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылку данных анализа к планирующей стороне;

прием планирующей стороной данных анализа;

если данные анализа являются адресами ссылок вторичной загрузки, то помещение адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, то помещение деталей информации в сегмент памяти данных; и

если данные анализа являются количествами страниц, то установку количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, и установку количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменение соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то перемещение соответствующих адресов ссылок ключевых слов в активный сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то перемещение соответствующих адресов ссылок ключевых слов в динамический сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то поиск в приостановленном сегменте памяти и перемещение адресов ссылок ключевых слов, времена планирования для которых в приостановленном сегменте памяти достигли текущего времени, в активный сегмент памяти.

8. Способ для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 1, отличающийся тем, что количества, разрешенные для добавления из динамического сегмента памяти, составляют больше, чем количества, разрешенные для добавления из базового сегмента памяти.

9. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам, отличающаяся тем, что содержит планирующую сторону и по меньшей мере один выполняющий обход узел, который осуществляет связь с планирующей стороной,

планирующая сторона содержит:

модуль приема команды запроса задания для приема команды запроса задания, посланной выполняющим обход узлом;

модуль генерации заданий приоритетного сегмента памяти для получения адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки, генерации заданий и добавления сгенерированных заданий в список заданий, и если достигнуты количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, то исполняется модуль возврата списка заданий, в противном случае исполняется модуль генерации заданий динамического сегмента памяти, при этом адреса ссылок вторичной загрузки являются адресами ссылок, которые требуют вторичной загрузки, полученными из анализа просмотренных страниц, обход которых выполнен выполняющим обход узлом в соответствии с заданием в списке заданий;

модуль генерации заданий динамического сегмента памяти для получения адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса многостраничных ссылок ключевых слов, вывода адресов производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавления заданий количеств страниц в список заданий, и если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, в противном случае исполняется модуль генерации заданий динамического сегмента памяти, при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в динамическом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше чем 2;

модуль генерации заданий базового сегмента памяти для получения адреса ссылки ключевого слова из базового сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий, добавления сгенерированных заданий в список заданий, и если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, при этом адреса ссылок ключевых слов являются адресами ссылок страниц результатов поиска, сгенерированных в целевом вебсайте в соответствии с ключевым словом, и страницы результатов поиска, соответствующие адресам ссылок ключевых слов в базовом сегменте памяти, составляют количества страниц не меньше, чем предварительно установленный порог для количеств страниц, который не меньше чем 2; и

модуль возврата списка заданий для возврата списка заданий к выполняющему обход узлу;

и выполняющий обход узел содержит:

модуль посылки команды запроса задания для посылки команды запроса задания к планирующей стороне, и

модуль выполнения задания для выполнения задания из списка заданий в соответствии с принятым списком заданий.

10. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 9, отличающаяся тем, что

модуль генерации заданий приоритетного сегмента памяти конкретно используется для:

получения адреса ссылки вторичной загрузки из приоритетного сегмента памяти, который хранит адреса ссылок вторичной загрузки;

генерации заданий;

добавления сгенерированных заданий в список заданий и

удаления адресов ссылок вторичной загрузки, для которых было сгенерировано задание, из приоритетного сегмента памяти;

и

если количества, разрешенные для добавления в список заданий из приоритетного сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий,

в противном случае, если приоритетный сегмент памяти дополнительно хранит адреса ссылок вторичной загрузки, то исполняется модуль генерации заданий приоритетного сегмента памяти, и

если все адреса ссылок вторичной загрузки удалены из приоритетного сегмента памяти, то исполняется модуль генерации заданий динамического сегмента памяти.

11. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 9, отличающаяся тем, что

модуль генерации заданий динамического сегмента памяти конкретно используется для:

получения незапланированных адресов ссылок ключевых слов из динамического сегмента памяти, который хранит адреса ссылок ключевых слов;

вывода адресов производных ссылок количеств страниц соответствующих адресам ссылок ключевых слов;

генерации заданий количеств страниц в соответствии с адресами производных ссылок количеств страниц и добавления заданий в список заданий и

установки состояний адресов ссылок ключевых слов, для которых были сгенерированы задания, в запланированные;

и

если количества, разрешенные для добавления в список заданий из динамического сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий, и состояния всех адресов ссылок ключевых слов в динамическом сегменте памяти устанавливаются в незапланированные,

в противном случае, если динамический сегмент памяти дополнительно хранит незапланированные адреса ссылок ключевых слов, то исполняется модуль генерации заданий динамического сегмента памяти, и

если динамический сегмент памяти не хранит незапланированные адреса ссылок ключевых слов, то исполняется модуль генерации заданий базового сегмента памяти.

12. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 9, отличающаяся тем, что

базовый сегмент памяти содержит активный сегмент памяти и приостановленный сегмент памяти;

модуль генерации заданий базового сегмента памяти конкретно используется для:

получения адреса ссылки ключевого слова с самым ранним временем планирования из активного сегмента памяти, который хранит адреса ссылок ключевых слов, генерации заданий и добавления сгенерированных заданий в список заданий, и

увеличения времен планирования для адресов ссылок ключевых слов, для которых были сгенерированы задания, на предварительно установленное увеличение времени планирования и затем перемещения их в приостановленный сегмент памяти; и

если количества, разрешенные для добавления в список заданий из базового сегмента памяти, достигнуты, то исполняется модуль возврата списка заданий,

в противном случае, если активный сегмент памяти дополнительно хранит адреса ссылок ключевых слов, то исполняется модуль генерации заданий базового сегмента памяти, и

если активный сегмент памяти не хранит адресов ссылок ключевых слов, то исполняется модуль возврата списка заданий.

13. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 9, отличающаяся тем, что

модуль выполнения задания конкретно используется для: обхода просматриваемых страниц в соответствии с заданием в списке заданий, анализа просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылки данных анализа к планирующей стороне;

и планирующая сторона дополнительно содержит модуль приема данных анализа для приема данных анализа:

если данные анализа являются адресами ссылок вторичной загрузки, то помещение адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, то помещение деталей информации в сегмент памяти данных;

если данные анализа являются количествами страниц, то настройки адресов ссылок ключевых слов, соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти.

14. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 13, отличающаяся тем, что настройка адресов ссылок ключевых слов, соответствующих количеству страниц в динамическом сегменте памяти и базовом сегменте памяти, посредством модуля приема данных анализа конкретно содержит:

установку количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, и установку количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и

если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменение соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то перемещение соответствующих адресов ссылок ключевых слов в базовый сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то перемещение соответствующих адресов ссылок ключевых слов в динамический сегмент памяти.

15. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 12, отличающаяся тем, что

модуль выполнения задания конкретно используется для:

обхода просматриваемых страниц в соответствии с заданием в списке заданий, анализа просмотренных страниц для получения данных анализа, включающих в себя адреса ссылок вторичной загрузки, детали информации или количества страниц, и посылки данных анализа к планирующей стороне;

и планирующая сторона дополнительно содержит модуль приема данных анализа, используемый для приема данных анализа:

если данные анализа являются адресами ссылок вторичной загрузки, то помещение адресов ссылок вторичной загрузки в приоритетный сегмент памяти;

если данные анализа являются деталями информации, то помещение деталей информации в сегмент памяти данных; и

если данные анализа являются количествами страниц, то установка количеств страниц, принятых в текущий момент, в качестве новых количеств страниц, установка количеств страниц, принятых ранее для тех же самых адресов ссылок ключевых слов, в качестве старых количеств страниц; и если старые количества страниц не согласуются с новыми количествами страниц:

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то изменения соответствующих количеств страниц, соответствующих адресам ссылок ключевых слов, на новые количества страниц; или

если старые количества страниц составляют не меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то перемещения соответствующих адресов ссылок ключевых слов в активный сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют не меньше, чем порог для количеств страниц, то перемещения соответствующих адресов ссылок ключевых слов в динамический сегмент памяти; или

если старые количества страниц составляют меньше, чем порог для количеств страниц, и новые количества страниц составляют меньше, чем порог для количеств страниц, то выполнения поиска в приостановленном сегменте памяти и перемещения адресов ссылок ключевых слов, времена планирования для которых в приостановленном сегменте памяти достигли текущего времени, в активный сегмент памяти.

16. Система для планирования Web-обходчиков в соответствии с поиском по ключевым словам по п. 9, отличающаяся тем, что количества, разрешенные для добавления из динамического сегмента памяти, составляют больше, чем количества, разрешенные для добавления из базового сегмента памяти.



 

Похожие патенты:

Устройство отображения кронштейного типа по настоящему изобретению включает: фиксирующий элемент (110) для прикрепления к опоре (200); дисплейную панель (120), прикрепленную к одной стороне фиксирующего элемента (110) и выполненную гибкой с возможностью сворачиваться и разворачиваться; и средства поддержания формы (130), установленные на верхней части и нижней части дисплейной панели (120) и выполненные с возможностью сворачивать дисплейную панель (120) в форме рулона или разворачивать ее в форме плоской панели и сохранять состояние формы при действии внешних сил.

Группа изобретений относится к области обработки информации и может быть использована для идентификации инструкций для удаления в многопоточном процессоре с изменением последовательности.

Изобретение относится к области связи. Технический результат изобретения заключается в обеспечении управления отказами, реализуемого путем формирования сообщений об отказах и их обработкой в среде виртуализации сетевых функций NFV.

Изобретение относится к области вычислительной техники. Технический результат заключается в оптимизации интерфейса для представления контекста данных изображения.

Изобретение относится к предоставлению объекта, относящегося к услуге. Технический результат – повышение эффективности предоставления объекта, относящегося к услуге.

Группа изобретений относится к системам связи и характеризует технологии управления авторизацией виртуальной очереди вывода. Техническим результатом является осуществление шейпинга трафика с агрегацией множества пользовательских сервисов согласно информации о состоянии шейпинга.

Изобретение относится к области управления устройствами беспроводной связи, а именно к осуществлению задержки широковещательной рассылки информации. Техническим результатом является оптимизация энергопотребления терминала за счет того, что, когда экран терминала находится в заблокированном состоянии, терминал откладывает передачу широковещательно рассылаемой информации и сервисы прикладных программ, активируемые широковещательно рассылаемой информацией, не запускаются.

Изобретение относится к области микроконтроллеров. Техническим результатом является пробуждение главного блока микроконтроллера (MCU).

Изобретение относится к беспроводной передаче данных. Технический результат - возможность каталогизации, установки и объединения сетевых функций с услугами сетевого уровня (связывание услуги) для предоставляемых услуг, чтобы способствовать гранулярным и стандартным механизмам мобильных сетей, уровнем услуг и приложений, для динамического обмена состояниями, договоренностями на уровне услуги (SLA), ресурсами и другой информацией.

Изобретение относится к области компьютерных технологий. Техническим результатом является представление приложений, которые в настоящий момент выполняются на терминале.

Способ защиты товаров от подделки и определения их подлинности на основе асимметричного шифрования относится к способам распознавания и может быть использовано для защиты товаров от подделки и определения их подлинности.

Группа изобретений относится к области управления проектами и обеспечению визуализации и взаимодействия с цифровыми модулями информационного моделирования зданий (BIM).

Изобретение относится к средствам для решения задач о выполнении булевых функций. Технический результат заключается в решения задачи о выполнимости булевых функций, заданных в конъюнктивной нормальной форме, имеющих N переменных и до М=2K дизъюнктов.

Изобретение относится к средствам обеспечения интеграции приложений для инфраструктуры синхронизации. Технический результат заключается в обеспечении возможности обеспечивать возможность приложениям временно блокировать машину синхронизации от файла, то есть исключать файл из наблюдения синхронизации машины синхронизации.

Изобретение относится к способу оптимального планирования использования виртуальных сетевых ресурсов центров обработки данных. Техническим результатом является обеспечение устранения сегментации физических ресурсов за счет миграции виртуальных ресурсов в центрах обработки данных, устранения перегрузки входящих в физическое хранилище данных каналов обмена.

Изобретение относится к области автоматизированного лингвистического преобразования данных с конкретным фокусом на преобразовании между разными орфографиями (например, с письменности русской кириллицы на латинскую письменность) в пределах заданных контекстов (таких как названия коммерческих предприятий).

Изобретение относится к средствам для обработки звукового сигнала. Технический результат заключается в повышении эффективности обработки сигнала.

Изобретение относится к обнаружению дублирования данных. Технический результат – сокращение записанного объема данных.

Группа изобретений относится к распределенным запоминающим системам и может быть использована для сохранения данных в кэш-памяти или памяти другого типа. Техническим результатом является обеспечение улучшенного использования ресурсов кэш-памяти и ресурсов других типов памяти.

Изобретение относится к области вычислительной техники, в частности к высокопроизводительным вычислительным устройствам для решения трудоемких задач с использованием распараллеливания по данным на множество независимых подзадач.

Способ защиты товаров от подделки и определения их подлинности на основе асимметричного шифрования относится к способам распознавания и может быть использовано для защиты товаров от подделки и определения их подлинности.

Изобретение относится к средствам планирования Web-обходчиков в соответствии с поиском по ключевым словам. Технический результат заключается в расширении арсенала средств планирования Web-обходчиков в соответствии с поиском по ключевым словам. Указанный результат достигается за счет применения способа, который содержит этапы, на которых: планирующая сторона принимает команду запроса задания, посланную выполняющим обход узлом, получает адрес ссылки вторичной загрузки из приоритетного сегмента памяти, генерирует задания, добавляет задания в список заданий, получает адреса ссылок ключевых слов из динамического сегмента памяти, выводит адреса производных ссылок количеств страниц, соответствующих адресам ссылок ключевых слов, генерирует задания количеств страниц в соответствии с адресами производных ссылок количеств страниц, добавляет задания количеств страниц в список заданий, получает адрес ссылки ключевого слова из базового сегмента памяти, генерирует задания, добавляет сгенерированные задания в список заданий и возвращает список заданий к выполняющему обход узлу. 2 н. и 14 з.п. ф-лы, 5 ил.

Наверх