Проверка релевантности между ключевыми словами и содержанием веб-сайта

Авторы патента:

МА Вэй-Ин (US)

ЛИ Ин (US)

ЦЗЭН Хуа-Цзюнь (US)

НАДЖМ Тарек (US)

ЛИ Ли (US)

ЧЭНЬ Чжэн (US)

ЧЖАН Бэньюй (US)

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Владельцы патента RU 2375747:

МАЙКРОСОФТ КОРПОРЕЙШН (US)

Изобретение относится к информационному анализу данных и, в частности, к проверке релевантности между терминами и содержанием веб-сайта. Изобретение позволяет находить ключевые слова, в большей степени релевантные содержанию веб-сайта. Находится содержание сайта из URL предложения. Вычисляется(ются) расширенный(ые) термин(ы), семантически и/или контекстуально связанный(ые) с термином(ами) предложения. Вычисляются измерения подобия содержания и расширенного подобия из соответствующих комбинаций термина(ов) предложения, содержания сайта и расширенных терминов. Определяются измерения подобия категории между расширенными терминами и содержанием сайта с учетом обучаемого классификатора подобия. Обучается обучаемый классификатор подобия из проанализированного содержания сайта, связанного с данными каталога. Определяется значение достоверности, обеспечивающее объективную меру релевантности между термином(ами) предложения и содержанием сайта, из измерений подобия содержания, расширенного подобия и подобия категории, оценивающих множество оценок подобия с учетом обучаемой модели классификатора релевантности. 4 н. и 37 з.п. ф-лы, 4 ил, 1 табл.

Связанные заявки

Настоящая патентная заявка связана со следующими патентными заявками, каждая из которых переуступлена правообладателю этой заявки и тем самым включается сюда по ссылке:

Патентная заявка США № 10/825,894 на «Связанные предложения терминов для запроса с неоднозначным смыслом» от 04.15.04;

Патентная заявка США № 10/826,159 на «Усиленную кластеризацию объектов данных множественного типа для предложения терминов для поиска» от 04.15.04; и

Патентная заявка США № 10/427,548 на «Кластеризацию объектов с использованием межуровневых связей» от 05.01.2003.

Область техники

Системы и способы изобретения принадлежат к информационному анализу данных.

Уровень техники

Ключевое слово или ключевая фраза - это слово или набор терминов, переданных пользователем веб-сети поисковому серверу при поиске связанной веб-страницы/сайта во всемирной паутине (WWW). Поисковые серверы определяют релевантность веб-сайта, основываясь на ключевых словах и ключевых фразах, которые появляются на странице/сайте. Поскольку существенный процент трафика веб-сайта является результатом использования поисковых серверов, промоутеры веб-сайтов знают, что надлежащий выбор ключевых слов(а) жизненно важен для увеличения трафика сайта для получения желательного освещения сайта. Методы идентификации ключевых слов, релевантных веб-сайту, для оптимизации результата поискового сервера включают, например, оценку человеком содержания веб-сайта и стремление идентифицировать релевантное ключевое слово(а). Эта оценка может включить использование инструмента определения популярности ключевого слова. Такие инструменты определяют, сколько людей передали конкретное ключевое слово или фразу, включающую ключевое слово, поисковому серверу. Ключевые слова, релевантные веб-сайту и определенные, как наиболее часто использованные для создания запросов на поиск, обычно выбираются для оптимизации результата поискового сервера относительно веб-сайта.

После идентификации набора ключевых слов для оптимизации результата поискового сервера веб-сайтов промоутеру может потребоваться продвинуть веб-сайт на более высокую позицию в результатах поискового сервера (по сравнению с отображенными позициями других результатов поискового сервера веб-сайтов). С этой целью промоутер предлагает цену по ключевому слову(ам) для использования с определенным(и) URL (унифицированный указатель информационного ресурса - стандартизованная строка символов, указывающая местонахождение документа в сети Internet), где предложение цены указывает, сколько промоутер заплатит каждый раз за щелчок пользователя веб-сети на списке промоутера, связанном с ключевым словом(ами). Другими словами, предложение цены по ключевому слову является предложением платы за щелчок за продвижение определенного URL (веб-сайта). Чем больше сумма предложения цены по ключевому слову по сравнению с другими предложениями по тому же самому ключевому слову, тем выше (более заметно по отношению к значимости) поисковый сервер отобразит соответствующий веб-сайт в результатах поиска на основе этого ключевого слова. К сожалению, предложенные рекламные термины могут быть нерелевантны содержанию веб-сайта и, в результате, не смогут соответствовать терминам или языку, используемому конечным пользователем.

Может показаться, что самый простой способ проверять ключевое слово(а) в отношении к веб-сайту (то есть содержанию веб-сайта) состоит в том, чтобы использовать обычный подход к поиску, который измеряет подобие только между ключевым(и) словом(ами) и веб-сайтом, без любых дополнительных сравнений точки ввода данных. Однако этот метод существенно ограничен. Даже при том, что ключевое слово может быть связано с веб-сайтом, сам сайт может не включать пороговые критерии (например, прямое соответствие, число появлений и т.д.), поддержку желательных ключевых слов, вызывая отклонение потенциально ценного термина предложений. Например, рассмотрим, что корпорация интерактивного магазина с соответствующим веб-сайтом предлагает цену на фразе «интерактивный магазин». Если используется обычный подход к поиску и на веб-сайте найдено относительно малое число появлений ключевого слова «магазин» и не одного появления ключевого слова «интерактивный», потенциально ценная ключевая фраза «интерактивный магазин» может быть по ошибке дисквалифицирована как термин предложения цены.

Другой обычный метод заключается в классификации термина/фразы предоставленного предложения цены и веб-сайта для получения двух векторов категорий вероятности, которые потом объединяются в конечный релевантный контекст. Проблема с этим обычным методом состоит в том, что он не оценивает термин/фразу непосредственно по отношению к его веб-сайту, что может быть существенно проблематичным. Например, если рекламодатель предлагает цену по термину «итальянские ботинки» и его веб-сайт продает ботинки, но НЕ итальянские ботинки, обычный метод классификации укажет для рекламодателя, что фраза предложения цены «итальянские ботинки» не релевантна веб-сайту.

Ввиду вышеизложенного, системы и способы лучшей идентификации ключевых слов, релевантных содержанию веб-сайта, приветствовались бы промоутерами веб-сайта. Это позволило бы промоутерам предлагать цену по терминам более вероятным для использования конечным пользователем. В идеале эти системы и способы должны быть независимы от требования оценки человеком содержания веб-сайта для идентификации релевантных ключевых слов для оптимизации поискового сервера и предложения цены по ключевым словам.

Сущность изобретения

Описаны системы и способы для проверки релевантности между терминами и содержанием веб-сайта. В одном аспекте получают содержание веб-сайта из URL предложения цены. Вычисляется(ются) расширенный(ые) термин(ы), семантически и/или контекстуально связанный(ые) с термином(ами) предложения(й) цены. Подобие содержания и расширенные измерения подобия вычисляются из соответствующих комбинаций термина(ов) предложения цены, содержания сайта и расширенных терминов. Измерения подобия категорий между расширенными терминами и содержанием сайта определяются в виде обучаемого классификатора подобия. Обучаемый классификатор подобия обучается из анализируемого содержания сайта, связанного с данными каталога. Значение достоверности, обеспечивающее объективную меру релевантности между термином(ами) предложения цены и содержанием сайта, определяется из содержания, расширения и измерений подобия категории, оценивающих множество оценок подобия ввиду модели обучаемого классификатора релевантности.

Краткое описание чертежей

В чертежах крайняя левая цифра ссылочной позиции компонента идентифицирует конкретный чертеж, на котором компонент появляется в первый раз.

Фиг.1 - примерная система для проверки релевантности между содержанием веб-сайта и терминами.

Фиг.2 - примерная процедура для проверки релевантности между содержанием веб-сайта и терминами.

Фиг.3 - примерная процедура для проверки релевантности между содержанием веб-сайта и терминами. В частности, Фиг.3 является продолжением примерных операций из фиг.2.

Фиг.4 - пример подходящей компьютерной среды, на которой описанные ниже системы, устройство и способы для проверки релевантности между терминами и содержанием веб-сайта могут быть полностью или частично осуществлены.

ПОДРОБНОЕ ОПИСАНИЕ

Краткий обзор

Следующие системы и способы проверяют релевантность между терминами и содержанием веб-сайта для учета ограничений обычных методов квалификации термина. С этой целью системы и способы объединяют множество измерений подобия посредством моделей обучаемого классификатора для получения единственного значения достоверности, указывающего, релевантен(тны) ли термин(ы) предложения цены содержанию конкретного веб-сайта. Более подробно, и в этом осуществлении, множество измерений подобия включают оценки подобия содержания, категории и подобия имени собственного.

Оценки подобия содержания включают прямое и расширенное подобие содержания. Прямое подобие содержания определяется с помощью оценки векторных моделей термина(ов) предложения цены и содержаний сайта для представленного веб-сайта. Расширенное подобие определяется с помощью оценки подобия между векторными моделями расширенных терминов и содержанием сайта. Расширенные термины анализируются из поискового сервера ввиду высокой частоты появления терминов в архивных запросах и определяются как семантически и/или контекстуально подобные термину(ам) предложения цены. Категории подобия определяются с помощью применения обучаемой модели категоризации подобия (классификатора) к расширенным терминам и содержанию веб-сайта для определения взаимосвязанности категорий между этими вводами. Подобие имени собственного определяется с помощью оценки термина(ов) предложения цены и содержанием веб-сайта в виде базы данных имен собственных. Эти множественные измерения подобия объединяются с использованием объединенной модели классификатора релевантности, которая обучается для генерации единого значения достоверности релевантности из этих оценок ввиду порога принятия отклонения. Значение достоверности обеспечивает объективное измерение релевантности термина(ов) предложения цены веб-сайту ввиду этого множества различных измерений подобия.

Эти и другие аспекты систем и способов для проверки релевантности между терминами и содержанием веб-сайта описаны ниже более подробно.

Примерная система для редакционной проверки

На чертежах, где одинаковые ссылочные позиции относятся к одинаковым элементам, системы и способы для проверки релевантности между терминами и содержанием веб-сайта описаны и показаны как осуществляемые в подходящей компьютерной среде редакционной проверки. Хотя это и не требуется, изобретение описано в общем контексте компьютерно-выполнимых команд (программных модулей), исполняемых персональным компьютером. Программные модули, в общем случае, включают подпрограммы, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют некоторые абстрактные типы данных. В то время как системы и способы описаны в предшествующем контексте, действия и операции, описанные в дальнейшем, могут также быть осуществлены с помощью аппаратных средств.

Фиг.1 показывает систему 100 для проверки релевантности между терминами предложения цены и предложением цены содержания веб-сайта. В этом осуществлении система 100 включает в себя сервер 102 редакционной проверки, связанный через сеть 104 с поисковым сервером 106. Сеть 104 может включать любую комбинацию из коммуникационных сред локальной сети (LAN) и общей глобальной сети (WAN), обычно используемых в офисах, компьютерных сетях в масштабах предприятия, интранете и сети Интернет. Сервер 102 редакционной проверки включает в себя множество программных модулей 108, например, модуль 110 предложения термина поиска (STS), модуль 112 проверки релевантности, модуль 114 классификации, модуль 116 сравнения термина и другой(ие) программный(ые) модуль(и) 118 типа «червяка» (механизм поиска в WWW) для веб-страниц для получения содержания сайта из унифицированного указателя информационного ресурса (URL) предложения цены, идентифицирующего веб-сайт.

Конечный пользователь (например, рекламодатель, промоутер веб-сайта и т.д.) предоставляет ввод 120 предложения цены серверу 102 редакционной проверки для проверки релевантности термина(ов) предложения содержанию сайта URL предложения цены. Ввод 120 предложения цены включает термин(ы) 122 предложения цены и URL 124 предложения цены. В одном осуществлении, сервер 102 редакционной проверки включает в себя один или более интерфейсов пользовательских вводов (например, см. интерфейсы 460 пользовательского ввода из фиг.4) типа клавиатуры, мыши, системы распознавания речи и/или подобные им для конечного пользователя для передачи ввода 120 предложения цены на сервер 102 редакционной проверки. В другом осуществлении сервер 102 редакционной проверки соединен с помощью сети 104 с клиентским компьютерным устройством (например, удаленным компьютером 480 из фиг.4) для конечного пользователя для обеспечения ввода 120 предложения цены на сервер 102 редакционной проверки.

Пример предложенного термина поиска

В ответ на получение ввода 120 предложения цены от конечного пользователя модуль 102 предложенного термина поиска генерирует список 126 предложенных терминов поиска для расширения термина(ов) 122 с помощью семантических и/или контекстуально связанных терминов. Множество смыслов или контекстов термина 122 может обеспечивать дополнительное значение термина, как описано ниже.

Таблица показывает примерный список 126 предложенных терминов для терминов, связанных с термином 122 «mail» («почта»). Термины, связанные с термином 122, показаны в этом примере в столбце 1 «Предложенный термин(ы)».

ТАБЛИЦА ПРИМЕРНЫЙ СПИСОК ПРЕДЛОЖЕННЫХ ТЕРМИНОВ ДЛЯ ТЕРМИНА «MAIL» ПРЕДЛОЖЕНИЯ ЦЕНЫ
Предложенный термин(ы)	Подобие	Частота	«Контекст»
hotmail	0,246942	93161	относится к электронной почте
yahoo	0,0719463	165722	относится к электронной почте
mail.com	0,352664	1455
yahoo mail	0,0720606	39376
www.mail.com	0,35367	711
email.com	0,484197	225
www.hot	0,186565	1579
www.msn.com	0,189117	1069
mail.yahoo.com	0,0968248	4481
free email	0,132611	1189
www.aolmail.com	0,150844	654
check mail	0,221989	66
check email	0,184565	59
msn passport	0,12222	55
www.webmail.aol.com	0,0800538	108
webmail.yahoo.com	0,08789	71
free email account	0,0836481	65
Предложенный термин(ы)	Подобие	Частота
mail	1	2191	относится к традиционной почте
usps	0,205141	4316	относится к традиционной почте
usps.com	0,173754	779
united parcel service	0,120837	941
postl rates	0,250423	76
stamps	0,156702	202
stamp collecting	0,143618	152
state abbreviations	0,104614	300
postal	0,185255	66
postage	0,180112	55
postage rates	0,172722	51
usps zip codes	0,136821	78
us postmaster	0,109844	58

Ссылаясь на таблицу, заметим, что для каждого предложенного термина (столбец 1), список 126 предложенных терминов поиска также включает соответствующее значение измерения подобия (см. столбец 2) для указания взаимосвязанности между предложенным термином(ами) и термином(ами) 122 и соответствующей частоты оценки использования (см. столбец 3) для обеспечения индикации того, как часто предложенный термин(ы) столбца 1 был представлен поисковому серверу 106. В этом примере каждое значение подобия столбца 2 обеспечивает меру подобия или оценку между соответствующим предложенным термином (столбец 1) и термином(ами) 122 предложения цены, которым является «mail» в этом примере. Каждое значение частоты или оценки, указывает то количество раз, которое предложенный термин использовался конкретным поисковым сервером 106 в запросе поиска конечного пользователя. Для представления конечному пользователю список 126 предложенных терминов сортируется как функция целей бизнеса, например предложенный(ые) термин(ы), подобие, и/или оценки частоты.

Любой данный термин 122 (например, mail, и т.д.) может иметь более чем один контекст, в пределах которого может использоваться термин предложения цены. Для учета этого модуля 110 предложения термина поиска разделяет предложенный термин(ы) по контексту. Например, в таблице 1 термин 122 «mail» имеет два контекста: (1) традиционная почта и (2) электронная почта. Заметим, что соответствующий (выделенный или независимый) список предложенных терминов показан для каждого из этих двух контекстов термина предложения цены.

Предложенный термин списка 126 предложенных терминов может быть больше чем синонимы термина 122. Например, согласно таблице, предложенный термин «usps» является акронимом для организации, которая обрабатывает почту, не синонимом для термина «mail» предложения цены. Однако «usps» также является термином, контекстуально весьма связанным с термином «mail» предложения цены, и таким образом, показан в списке 126 предложенных терминов. В одном осуществлении, модуль 110 предложения термина поиска 110 определяет отношение между связанным термином R (например, «usps») и целевым термином T (например, «mail») как функцию следующего ассоциативного правила: itr(T) → itr(R), где «itr» представляет собой «заинтересованный в». То есть, если конечный пользователь (рекламодатель, промоутер веб-сайта и/или подобный им) заинтересован в R, то конечный пользователь будет, вероятно, также заинтересован в T.

Для генерации списка 126 предложенных терминов поиска модуль 110 предложения термина поиска посылает выбранные одни из архивных запросов, полученные из журнала 130 регистрации запросов 130, на поисковый сервер 106. Выбранные одни из архивных запросов для представления поисковому серверу 105 идентифицируются модулем 126 предложения термина поиска как имеющий существенно высокую частоту появления (FOO) по сравнению с другими одними из архивных запросов терминов, полученных из журнала 130 регистрации запросов. В этом осуществлении, используется конфигурированное пороговое значение для определения, имеет ли архивный запрос относительно высокую или низкую частоту появления. Например, термины архивных запросов, которые появляются, по меньшей мере, пороговое количество раз, оцениваются как имеющие высокую частоту появления. Аналогично, термины архивных запросов, которые появляются менее чем пороговое число раз, оцениваются как имеющие низкую частоту появления. Для целей иллюстрации, такое пороговое значение показано как соответствующая часть «других данных» 132. Термины запросов с высокой и низкой FOO показаны как часть «запросов высокой/низкой FOO» «других данных» 132.

Модуль 110 предложения термина поиска извлекает набор признаков или описаний фрагментов из выбранных одних из возвращенных результатов поиска (например, одного или более результатов поиска высокого ранга) для каждого термина запроса. Модуль 110 предложения термина поиска выполняет операции предварительной обработки текста над извлеченными данными для генерации индивидуальных лексем термина. Для уменьшения размерности лексем модуль 110 предложения термина поиска удаляет любые стоп-слова (например, “the”, “a”, “is”, и т.д.) и удаляет общие суффиксы, и таким образом нормализует термины, например, используя известный алгоритм морфологического поиска Портера. Модуль 110 предложения термина поиска упорядочивает полученные в результате термины и другие извлеченные признаки в один или более векторов предложения терминов поиска (STS) (показанных как соответствующая часть векторов 134 термина). Каждый STS-вектор 134 имеет размерность, основанную на частоте термина и инвертированных оценках частоты документа (TFIDF).

Вес для j-го вектора i-го термина рассчитывается следующим образом:

где TF _ij представляет частоту термина (число появлений термина j в i-ой записи), N - общее количество терминов запроса и DF _j - число записей, которые содержат термин j. Модуль 110 предложения термина поиска использует эти соответствующие веса для группы подобных терминов группы и контекста из STS векторов 134 для генерации кластеров 136 терминов. С этой целью и в этом осуществлении, учитывая векторное представление каждого термина, используется функция косинуса для измерения подобия между парой терминов (напоминаем, что термины были нормализованы):

Таким образом, расстояние (мера сходства) между двумя терминами (измерение подобия) определяется как:

dist(q _j, q _k) = 1-sim(q _j, q _k)

Такие измерения подобия предложенного термина поиска (STS) показаны как соответствующая часть «других данных» 132. Примеры таких значений подобия показаны выше в примерном списке 126 предложенных терминов таблицы.

Модуль 110 предложения термина поиска использует рассчитанное(ые) измерение(я) подобия термина для терминов кластера/группы в STS-векторах 134 для основанной на термине архивного запроса с высокой FOO части кластера(ов) 136 термина. Более подробно, и в этом осуществлении, модуль 110 предложения термина поиска использует известный алгоритм кластеризации на основе плотности (DBSCAN) для генерации кластера(ов) 136 этих терминов. DBSCAN использует два параметра: Eps и MinPts. Eps представляет собой максимальное расстояние между точками в кластерах 136 терминов. Точка является вектором признаков термина. В многомерном пространстве векторы эквивалентны точкам. MinPts представляет минимальное число точек в кластере 136 терминов. Для генерации кластера 136, DBSCAN начинает с произвольной точки p и отыскивает все точки, доступные по плотности из p по отношению к Eps и MinPts. Если p является основной точкой, эта операция выдает кластер 136 терминов по отношению к Eps и MinPts. Если p является граничной точкой, никакие точки не являются доступными по плотности из p, и DBSCAN переходит к следующей точке.

Модуль 110 предложения термина поиска после этого сравнивает термин(ы) 122 с соответствующим(и) термином(ами) в кластере 136 терминов. Так как кластеры терминов включают в себя признаки, которые семантически и/или контекстуально связаны друг с другом, термин(ы) 122 оценивается(ются) в виде множества связанных контекстов или «смыслов» для расширения термина(ов) 122, и таким образом обеспечение генерации списка 126 предложенных терминов поиска. В одном осуществлении, если модуль 110 предложения термина поиска решает, что термин(ы) 122 отличается(ются) от термина(ов) не более чем из одного кластера 136, модуль 110 предложения термина поиска генерирует список 126 предложенных терминов из единственного кластера 136. В этом осуществлении соответствие может быть точным соответствием или соответствием с небольшим числом вариаций типа сингулярных/множественных форм, орфографических ошибок, знаков препинания, и т.д. Сформированный список терминов упорядочивается в соответствии с некоторыми критериями, которые, например, могли быть линейной комбинацией FOO и подобия между термином(ами) 122 и предложенными терминами, как:

Score( q _i ) = αFOO(q _i) + βsim(q _i, Q),

где α+β =1.

Если модуль 110 предложенных терминов поиска решает, что термин(ы) 122 совпадает с термином(ами) в множестве кластеров 136 терминов, модуль 110 предложения термина поиска генерирует список 126 предложенных терминов из терминов множества кластеров терминов. Предложенные термины из каждого кластера упорядочиваются с использованием того же самого метода, что и описанный выше.

Примерная система и способ для модуля 110 предложения термина поиска для генерации списка 126 предложенных терминов поиска описаны в патентной заявке США № 10/825,894 на «Связанные предложения терминов для запроса с неоднозначным смыслом» от 04/15/04.

Примерная проверка релевантности

Модуль 112 проверки релевантности использует предложенный(ые) термин(ы) (термины, которые расширяют ввод 120 предложения цены термина(ов) 122) списка 126 предложенных терминов поиска и ввода 120 предложения цены (то есть термин(ы) 122 и содержание сайта из URL 124) для генерации значения 138 достоверности, которое измеряет релевантность между термином(ами) 122 предложения цены и содержанием сайта URL 124 предложения цены. С этой целью модуль 112 проверки релевантности вычисляет значение 138 достоверности из множества измерений подобия, которые для целей иллюстрации и обсуждения показаны как измерения 140 подобия проверки релевантности (RV). В этом осуществлении измерения 140 RV-подобия включают, например, подобие содержания, подобие классификации и оценки подобия имени собственного. Каждый из этих типов измерений 140 RV-подобия описываются ниже.

Часть измерений подобия содержания измерений 140 RV-подобия включает прямые и расширенные измерения подобия. Для вычисления прямого подобия модуль 112 проверки релевантности измеряет подобие/связанность между термином(ами) 122 и содержанием сайта(ов) URL 13, оба смоделированные в векторном пространстве. Чтобы вычислить расширенное подобие, содержание 124 сайта URL извлекается, например, модулем «червяка» веб-страниц, который представлен соответствующей частью «другого(их) программного(ых) модуля(ей)» 118. Модуль 112 проверки релевантности определяет подобие между предложенным(и) термином(ами) списка 126 предложенных терминов поиска и содержанием сайта URL 124, причем оба ввода также смоделированы в векторном пространстве. Как описывалось выше, предложенный(ые) термин(ы) списка 126 предложенных терминов поиска был(и): (a) добыты из результатов, возвращенных поисковым сервером 106 ввиду представленных терминов архивных запросов высокой FOO. Таким образом, предложенный(ые) термин(ы) определяется(ются) семантически и/или контекстуально связанным(и) с термином(ами) 122 предложения цены.

Часть измерений подобия имени собственного измерений 140 RV-подобия указывает подобие/связанность между любым именем(ами) собственным, обнаруженным(и) в термине(ах) 122 предложения цены и содержанием сайта URL 124. Для целей обсуждения, база данных имен собственных представлена соответствующей частью «других данных» 132. Такие имена собственные включают, например, названия стран, городов и известных товарных знаков. Более подробно, после обнаружения любых имен собственных в предложенном вводе 120, модуль 112 проверки релевантности вычисляет подобие имени собственного как:

Prop_Sim(term, page) =

1 - если term содержит имя собственное P, и page содержит соответствующее имя собственное Q.

0 - term содержит имя собственное P, и page содержит только несоответствующее имя(ена) собственное Q.

0,5 - Иначе.

Имя собственное является согласованным с самим собой и с его предками. Например, географическое местоположение нижнего уровня является согласованным с географическим местоположением высокого уровня, которое содержит его, например Милан является согласованным с Италией.

Часть измерений подобия классификации измерений 140 RV-подобия измеряет связанность между предложенным(и) термином(ами) поиска списка 126 предложенных терминов и содержанием сайта URL 124. Более подробно, измерения подобия классификации генерируются с помощью представления предложенных терминов и содержания веб-сайта обучаемому классификатору 142 подобия (категоризации). Модуль 122 проверки релевантности обучает классификатор 142 подобия с любым из множества различных методов классификации (например, упрощенный байесов (NB), поддерживающий векторную машину (SVM), статистическая n-грамма, основанная на упрощенном байесовом методе (N-грамма), ближайший сосед (KNN), дерево решения, со-обучение, увеличение, и/или подобные этому), как описывается далее.

Примерное автономное обучение классификатора подобия

Модуль 112 проверки релевантности обучает классификатор 142 подобия как на данных каталога (см. «другие данные» 132), где X является вводом (строковый поток с масштабом от одного термина до содержаний нескольких веб-страниц), и L является выводом (вероятность по всем уровням top2 категорий). Таксономия категории имеет иерархическую структуру. В этом осуществлении мы используем категории 2-го уровня данных каталога LookSmart®, сумма этих категорий является некоторым числом (например, 74) для классификации. Модуль 112 проверки релевантности выполняет операции выделения признаков и выбора признаков на данных каталога. Более подробно, модуль 112 проверки релевантности выделяет отрывки описаний (извлеченные данные) из веб-страниц(ы), идентифицированной(ыми) данными каталога. Веб-страница(ы) извлекается(ются), например, модулем «червяка» веб-страниц, представленный с соответствующей частью «другого(их) программного(ых) модуля(ей)» 118. Каждый отрывок описаний для конкретной веб-страницы включает, например, один или более заголовков, метаданные, тело, привязку текста, размер шрифта, гиперсвязи, изображения, необработанный HTML (например, резюмирование и информация о компоновке страницы) и/или подобное этому.

Модуль 112 проверки релевантности применяет простую предварительную обработку текста для генерации лингвистических лексем (то есть, размечает индивидуальные термины) из извлеченных признаков/данных. Чтобы уменьшать размерность лексем, модуль 112 проверки релевантности удаляет любые слова останова и удаляет общие суффиксы для нормализации терминов, например, используя известный алгоритм морфологического поиска Портера. Модуль 112 проверки релевантности упорядочивает результирующие извлеченные признаки в один или более векторов терминов проверки релевантности (RV) (то есть, RV-векторы 134). Также, каждая Web-страница представлена как вектор признаков, элементом которого является слово с его взвешиванием x_i=<x_i1, x_i2 … x_in>, взвешивание x_ij рассчитывается путем нормализации по длине log(tf).idf в форме:

где d представляет собой оригинал документа, t представляет термин, f _x,t представляет частоту термина t в x, idf _t представляет инвертированную частоту документа термина t, dlb _x представляет число уникальных терминов в x, avef _x представляет среднее число частот терминов в x, и avedlb представляет среднее число dlb _x в совокупности.

Операции выбора признаков модуля 112 проверки релевантности дополнительно уменьшает признаки RV-векторов 134 (слишком много признаков может ухудшить производительность и точность системы классификации). В этом осуществлении, способ выбора информационного выигрыша (IG) используется для выбора признака. Информационный выигрыш термина измеряет число битов информации, полученной для предсказания категории присутствием или отсутствием термина в документе следующим образом:

где t представляет термин, c представляет категорию, и m представляет общее количество категорий. Также могут использоваться другие способы выбора признаков, типа взаимной информации (МИ), частоты документа (DF) и линейный дискриминантный анализ (LDA).

В этом осуществлении, операции обучения классификатора модуля 112 проверки релевантности используют статистическую модель n-граммы, основанной на упрощенном байесовом классификаторе (n-грамма), хотя могут использоваться другие типы классификаторов. В частности, отличный от упрощенного байесова классификатора статистическая модель n-граммы не предполагает независимости от потока слов. Это предлагает независимость марковской n-граммы, то есть одно слово зависит от предыдущих n-1 слов согласно:

Прямая оценка этой вероятности из совокупности обучения задается наблюдаемой частотой:

Большинство из значений является нулевым в данных обучения. Поэтому предложена технология сглаживания для оценки нулевой вероятности для обработки любой разреженности данных. Модель n-граммы с выдержкой является одним из способов решения этой проблемы следующим образом:

где

является игнорируемой условной вероятностью и является фактором выдержки для сдвига n-граммы к (n-1)-грамме:

Есть несколько алгоритмов для вычисления игнорируемой условной вероятности. В этом осуществлении «абсолютное сглаживание» используется следующим образом:

где

является числом слов, которые возникают точно раз в данных обучения. Таким образом, мы можем изменить NB классификатор как классификатор n-граммы:

В этом осуществлении n=3, и классификатор n-граммы называется 3-граммовым классификатором.

Экспертная комбинация измерений подобия

Модуль 112 проверки релевантности оценивает множественные измерения 140 RV-подобия ввиду объединенного классификатора 144 релевантности для генерации значения 138 достоверности, которое указывает объективную релевантность термина(ов) 122 предложения цены содержанию сайта URL 124 предложения цены. Объединенный классификатор 144 релевантности обучается контролируемым обучением, например, как SVM классификатор, с данными в форме <термин(ы), веб-страница (URL), принять/отклонить> в виде порога термина/фразы отклонения/приема. Для целей обсуждения, порог термина отклонения/приема показан как соответствующая часть «других данных» 132.

Измерения 140 RV-подобия обрабатываются как вектор признаков для ввода 120 предложения цены (то есть пара <термин, страница>). Для целей иллюстрации и обсуждения, измерения RV-подобия (SM) как вектора(ов) признаков показаны как вектор(ы) 140 признаков RVSM. Мы имеем следующие вычисления ввода 120 предложения цены и измерения 140 RV-подобия:

ввод 120 предложения цены: <термин(ы) 122, URL 124>;

основанные на содержании измерения 140 RV-подобия термина(ов) 122, URL 124, которые представлены как Sim(термин(ы) 122, URL 124);

основанные на расширенном содержании измерения 140 RV-подобия - Ex_Sim(расширенный(ые) термин(ы) 126, URL 124);

основанные на классификаторе 142 подобия измерения 140 RV-подобия - Cate_Sim (категория расширенных терминов 126, категория URL); и

основанные на имени собственном измерения 140 RV-подобия -Proper_Sim (имена собственные, термин(ы) 122, URL 124).

Модуль 112 проверки релевантности применяет вектор(ы) 140 признаков RVSM из <термин, запрос> к объединенному классификатору 144 релевантности для отображения множества значений 140 RV-подобия ввиду порога релевантности отклонения/приема для вычисления соответствующих весов типа RV-подобия (то есть содержание, расширенное, категория и надлежащие типы измерения подобия) и конечного значения 138 достоверности.

Классификация терминов с низким значением FOO

Ввиду конфигурируемого порога, если значение 138 достоверности указывает, что термин(ы) 122 должен(ны) быть отклонен(ы) как нерелевантный(ые) содержанию сайта URL 124, модуль 114 классификации генерирует список 126 предложенных терминов, основываясь на терминах запроса низкой частоты появления (FOO) для конечного пользователя для оценки ввиду содержания сайта URL 124. В этом осуществлении, список 126 предложенных терминов показан как сообщение 146, передаваемое конечному пользователю для оценки. В частности, модуль 114 классификации использует классификатор 148 STS из кластеров 136 терминов, которые, как описано выше, генерировались из терминов в зарегистрированных запросах высокой частоты возникновения (FOO). Модуль 114 классификации использует классификатор 148 STS для группировки основанных на высоких FOO кластеров 136 терминов в одну или более категорий STS (см. «другие данные» 132), как функцию от содержания соответствующих терминов. Кластеры 136 терминов уже находятся в векторной пространственной модели, подходящей для операций классификации. Дополнительно, удаление слов останова и морфологический поиск слов (удаление суффикса) уже уменьшили размерность содержания кластера 136 терминов. В одном осуществлении могут использоваться дополнительные способы сокращения размерности, например, выбор признака или повторная параметризация.

В этом осуществлении для классификации кластера 136 терминов неизвестного класса, модуль 114 классификации использует алгоритм классификатора k - ближайшего соседа для ранжирования соседей кластера неизвестного класса среди векторов терминов, и использует метки класса для k наиболее подобных соседей для предсказания класса термина неизвестного класса. Классы этих соседей взвешиваются с использованием подобия каждого соседа элементу X, где подобие измерено евклидовым расстоянием или значением косинуса между двумя векторами документа. Подобие косинуса выражается следующим образом:

где X - испытываемый документ, представленный как вектор; D _j является j-ым обучающим документом; t _i - слово, совместно используемое в X и D _j; x _i - вес термина t _i в X; d _ij - вес термина t _iв документе D _j; является нормой X, и - норма D _j. Порог останова используется для отнесения нового документа известному классу.

В другом осуществлении для генерации обучаемого классификатора STS используются различные статистические классификации и методы машинного обучения (например, включая регрессивные модели, байесовы классификаторы, деревья решения, нейронные сети, и машины с поддержкой векторов), отличные от метода классификации ближайшего соседа.

Модуль 114 классификации передает термины запроса с низкой частотой появления (FOO) (см. части терминов запросов с высокой/низкой частотой «других данных» 132) один за другим поисковому серверу 106. В ответ на получение соответствующего результата поиска для каждого запроса, переданного поисковому серверу, и с использованием уже описанных способов, модуль 114 классификации выделяет признаки, такие как отрывки описания из каждой из найденных веб-страниц, идентифицированной в результатах поиска. В этом осуществлении, признаки извлекаются из первой по рангу веб-страницы. Эти выделенные признаки представлены в соответствующей части «других данных» 132. В другом осуществлении, признаки выделяются из множества веб-страниц верхнего ранга. Для каждой найденной и проанализированной веб-страницы модуль 114 классификации сохраняет следующую информацию в соответствующей записи извлеченных признаков: описание отрывка, поисковый запрос, использованный для получения найденной веб-страницы, и универсальный идентификатор ресурса (URI) найденной веб-страницы. Затем, модуль 114 классификации маркирует, уменьшает размерность и нормализует извлеченные признаки 138, полученные из терминов запроса с низкой FOO для генерации другого набора векторов терминов (то есть векторов STS 134).

Классификация 114 кластеризует термин(ы) в векторах STS 134 в соответствующий набор кластеров 136 терминов, которые являются кластерами, основанными на терминах запросов с низкой FOO. Эта операция кластеризации выполняется с использованием обученного классификатора 148 STS, который, как описано выше, был сформирован из терминов запросов с высокой FOO. Модуль 114 классификации оценивает термин(ы) ввиду этих кластеров терминов для идентификации и возврата списка 126 предложенных терминов, включающего эти другие термины, конечному пользователю.

Примерная процедура сравнения терминов

Ввиду конфигурируемого порога, если значение 138 достоверности указывает, что термин 122 должен быть принят как нерелевантный содержанию сайта URL 124, ввод 120 предложения цены сохраняется в базе 150 данных предложений цены для разрешения последующих запросов 152, получаемых от конечного пользователя. Например, в ответ на получение запроса 152 от конечного пользователя, ищущего веб-страницу, модуль 116 сравнения терминов редактирует расстояние между термином(ами) в запросе 150 и термине(ах) из базы 150 данных предложений цены для определения релевантности термина(ов) в запросе 152 предложенному термину(ам) 122. В частности, модуль 116 сравнения терминов определяет релевантность следующим образом:

где fCommon представляет число общих терминов, и fDistance представляет число раз, когда термины 122 предложения цены были обменены на термины запроса 152.

Примерная процедура

Фиг.2 иллюстрирует примерную процедуру 200 для проверки релевантности содержания веб-сайта терминам. Для целей обсуждения, операции процедуры описываются для компонентов, представленных на фиг.1. (Все ссылочные позиции начинаются с номера чертежа, на котором компонент представлен в первый раз). В блоке 202, модуль 110 предложения термина поиска генерирует первый набор кластеров 136 терминов из результатов поиска поискового сервера 106. Для целей обсуждения, такие результаты поиска показываются как соответствующая часть «других данных» 132. Чтобы получить результаты поиска, модуль 110 предложения терминов поиска передает архивные запросы с высокой частотой появления, полученные из журнала 130 регистрации запросов. Кластеры 136 терминов включают описания отрывков, соответствующие запросы на поиск, и веб-страницы, определенные модулем 110 предложения терминов поиска как семантически и/или контекстуально связанные с переданными архивными запросами с высокой частотой появления.

В блоке 204 в ответ на получение ввода 120 предложения цены, включающего термин(ы) 122 и URL 124, сервером 102 редакционной проверки, модуль 110 предложения терминов поиска идентифицирует расширенные термины из кластера 136 терминов, сформированного из терминов архивных запросов с высокой частотой появления. Такие расширенные термины включают термины, которые семантически и/или контекстуально связаны с термином(ами) 122 и/или содержанием сайта предложения цены URL 124. Расширенные термины показаны как список 126 предложений терминов на фиг.1. В блоке 206 модуль 112 проверки релевантности вычисляет значения подобия содержания, расширенного, классифицированного подобия и подобия имени собственного (то есть измерения 140 RV-подобия) соответственно из комбинаций термина(ов) 122 предложения цены, URL 124 предложения цены, расширенных терминов из списка 126 предложенных терминов, обученного классификатора 142 подобия и/или базы данных имен собственных. В блоке 208 модуль 112 проверки релевантности объединяет измерения 140 RV-подобия ввиду обученного объединенного классификатора 144 релевантности и порогового значения принятия/отклонения (см. «другие данные» 132), чтобы получить значение 138 достоверности. Значение 138 достоверности обеспечивает объективное измерение релевантности между термином(ами) 122 предложения цены и URL 124 предложения цены.

В блоке 210 модуль 112 проверки релевантности определяет, не является ли значение 138 достоверности слишком низким ввиду порога принятия/отклонения. Если это так, то процедура переходит к блоку 212. В блоке 212 модуль 114 классификации формирует список 126 предложенных терминов из второго набора кластеров 136 терминов на основе результатов поискового сервера 106 для архивных запросов с низкой FOO и классификатора, обученного на первом наборе кластеров 136 терминов. Термин(ы) из списка 126 предложенных терминов определяются модулем 114 классификации как семантически и/или контекстуально подобные содержанием сайта, ассоциированным с URL 124 предложения цены. Для целей иллюстрации, классификатор показан как классификатор STS 148. В этом примере, список 126 предложенных терминов показан как переданный в виде сообщения 146 конечному пользователю для оценки.

В блоке 208, если модуль 112 проверки релевантности решает, что значение 138 достоверности приемлемо (не слишком низко ввиду порога принятия/отклонения), процедура переходит к блоку 302 фиг.3, как обозначено постраничной ссылкой «A».

Фиг.3 иллюстрирует примерную процедуру 300 для проверки релевантности между содержанием веб-сайта и терминами. В частности, фиг.3 является продолжением примерных операций по фиг.2. В блоке 302 модуль 112 проверки релевантности сохраняет/кэширует термин(ы) 122 предложения цены и URL 124 предложения цены в базу 150 данных предложений цен. В блоке 304, в ответ на получение сервером 102 редакционной проверки от запроса 152 любого конечного пользователя, модуль 116 сравнения терминов определяет, является(ются) ли термин(ы) запроса 152 поиска релевантным(и) термину(ам) 122, сохраненным в базе 150 данных предложений цены ввиду возможности того, что термины запроса могут неточно соответствовать термину(ам) 122 предложения. В блоке 306, если термин(ы) запроса 152 определен(ы), как релевантный(ые) термину(ам) 122 предложения цены, сервер 102 редакционной проверки передает соответствующий URL 124 предложения цены конечному пользователю как результат поиска.

Примерная операционная среда

Фиг.4 иллюстрирует пример подходящей компьютерной среды 400, на которой система 100 по фиг.1 и методология по фиг.2 и 3 для проверки релевантности между терминами и содержанием веб-сайта могут быть полностью или частично осуществлены. Примерная компьютерная среда 400 является только одним примером подходящей компьютерной среды и не предусматривает каких-либо ограничений относительно объема использования или функциональных возможностей систем и способов, описанных здесь. Компьютерная среда 400 не должна интерпретироваться как имеющая какую-либо зависимость или требование, касающиеся любого одного или комбинации компонентов, проиллюстрированных в компьютерной среде 400.

Способы и системы, описанные здесь, могут быть реализованы с множеством других универсальных или специализированных компьютерных системных сред или конфигураций. Примеры известных компьютерных систем, сред и/или конфигураций, которые могут быть подходящими для использования, включают, но не ограничены этим, персональные компьютеры, серверные компьютеры, многопроцессорные системы, системы на основе микропроцессора, сетевые PC, мини-компьютеры, универсальные компьютеры, распределенные компьютерные среды, которые включают любую из вышеупомянутых систем или устройств, и так далее. Компактные или сокращенные версии структуры могут также быть осуществлены на клиентах с ограниченными ресурсами, типа карманных компьютеров или других компьютерных устройств. Изобретение может быть реализовано в распределенной компьютерной среде, где задачи выполняются удаленными устройствами обработки, которые связаны посредством коммуникационной сети. В распределенной компьютерной среде программные модули могут быть расположены как в локальных, так и в удаленных запоминающих устройствах памяти.

Согласно фиг.4 примерная система для проверки релевантности между терминами и содержанием веб-сайта включает в себя универсальное компьютерное устройство в форме компьютера 410. Следующие описанные аспекты компьютера 410 являются примерными реализациями сервера 102 (фиг.1) клиентского компьютерного устройства PSS и/или клиентского компьютерного устройства 106. Компоненты компьютера 410 могут включать, но не ограничены этим, процессорный модуль(и) 420, системную память 430 и системную шину 421, которая присоединяет различные системные компоненты, включая системную память, к процессорному модулю 420. Системная шина 421 может быть любой из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, использующую любую из разнообразия шинных архитектур. В качестве примера, а не ограничения, такая архитектура может включать шину архитектуры промышленного стандарта (ISA), шину микроканальной архитектуры (MCA), усовершенствованную ISA (EISA) шину, локальную шину ассоциации по стандартам в области видеоэлектроники (VESA) и Стандартную PCI шину, также известную как шина Mezzanine.

Компьютер 410 обычно включает разнообразные машиночитаемые носители. Машиночитаемые носители могут быть любыми доступными носителями, к которым может обращаться компьютер 410, и включают энергозависимые и энергонезависимые носители, сменные и несменные носители. В качестве примера, но не ограничения, машиночитаемые носители могут включать компьютерные носители данных и среду передачи. Компьютерные носители данных включают энергозависимые и энергонезависимые, сменные и несменные носители, осуществленные любым способом или технологией для хранения информации, такой как читаемые компьютером команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают, но не ограничены этим, оперативную память, постоянную память, электронно-перепрограммируемую постоянную память, флэш-память или другую технологию памяти, CD-ROM, цифровые универсальные диски (DVD) или другую оптическую память на диске, магнитные кассеты, магнитную ленту, магнитную память на диске или другие магнитные запоминающие устройства, или любой другой носитель информации, который может использоваться для хранения желательной информации и к которой может обращаться компьютер 410.

Среда передачи обычно воплощает читаемые компьютером команды, структуры данных, программные модули или другие данные в модулируемом сигнале данных типа несущего колебания или другого транспортного механизма и включают любые среды доставки информации. Термин «модулированный сигнал данных» означает сигнал, который имеет одну или более из его набора характеристик установленной или измененной таким способом, чтобы закодировать информацию в сигнале. В качестве примера, но не ограничения среды передачи включают проводные среды передачи типа проводной сети или непосредственного прямого подключения, и беспроводные среды передачи типа акустических, радиочастотных, инфракрасных и других беспроводных сред передачи. Комбинации любого из вышеупомянутых должны также быть включены в объем машиночитаемых носителей.

Системная память 430 включает компьютерные носители данных в форме энергозависимой и/или энергонезависимой памяти типа постоянного запоминающего устройства 431 (ROM) и оперативной памяти 432 (RAM). Базовая система 433 ввода-вывода (BIOS), содержащая основные подпрограммы, которые помогают передавать информацию между элементами в компьютере 410, например во время запуска, обычно сохраняется в ROM 431. Оперативная память 432 обычно содержит данные и/или программные модули, которые являются немедленно доступными для процессорного модуля 420 и/или могут быть обработаны процессорным модулем 420. В качестве примера, но не ограничения, фиг.4 иллюстрирует операционную систему 434, прикладные программы 435, другие программные модули 436 и программные данные 437. В одном осуществлении, прикладные программы 435 включают в себя программные модули 108 по фиг.1. В том же самом сценарии, программные данные 437 включают программные данные 128 по фиг.1.

Компьютер 410 может также включать другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных. Только в качестве примера, фиг.4 иллюстрирует дисковод 441 жестких дисков, который читает или пишет на несменные, энергонезависимые магнитные носители, дисковод 451 магнитных дисков, который читает или пишет на сменный, энергонезависимый магнитный диск 452, и дисковод 455 оптических дисков, который читает или пишет на сменный, энергонезависимый оптический диск 456 типа CD-ROM или другой оптический носитель. Другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных, которые могут использоваться в примерной среде, включают, но не ограничены этим, кассеты магнитной ленты, платы флэш-памяти, цифровые универсальные диски, цифровую видеоленту, оперативную твердотельную память, твердотельную ROM и т.п. Дисковод 441 жестких дисков обычно подключается к системной шине 421 через интерфейс несменной памяти типа интерфейса 440 и дисковод 451 магнитных дисков, и дисковод 455 оптических дисков обычно подключаются к системной шине 421 посредством интерфейса сменной памяти типа интерфейса 450.

Дисководы и связанные с ними компьютерные носители данных, обсужденные выше и проиллюстрированные на фиг.4, обеспечивают хранение читаемых компьютером команд, структур данных, программных модулей и других данных для компьютера 410. На фиг.4, например, дисковод 441 жестких дисков проиллюстрирован как хранилище операционной системы 444, прикладных программ 445, других программных модулей 446 и программных данных 447. Эти компоненты могут или быть теми же самыми или отличными от операционной системы 434, прикладных программ 435, других программных модулей 436 и программных данных 437. Операционная система 444, прикладные программы 445, другие программные модули 446 и программные данные 447 здесь обозначены другими номерами, чтобы проиллюстрировать то, что они являются, по меньшей мере, отличающимися копиями.

Пользователь может ввести команды и информацию в компьютер 410 через устройства ввода данных типа клавиатуры 462 и координатно-указательного устройства 461, обычно называемого мышью, трекболом или сенсорной клавиатурой. Другие устройства ввода данных (не показанные здесь) могут включать микрофон, джойстик, игровую клавиатуру, спутниковую антенну, сканер или подобные им. Эти и другие устройства ввода данных часто подключаются к процессорному модулю 420 через интерфейс 460 пользовательского ввода, который соединен с системной шиной 421, но может быть связан другим интерфейсом и шинными структурами типа параллельного порта, игрового порта или универсальной последовательной шины (USB).

Монитор 491 или другой тип устройства отображения также связан с системной шиной 421 через интерфейс, типа видеоинтерфейса 490. В дополнение к монитору, компьютеры могут также включать другие периферийные устройства вывода типа динамиков 497 и принтера 496, которые могут быть связаны через внешний интерфейс 495 вывода.

Компьютер 410 работает в сетевой среде, используя логические соединения с одним или более удаленными компьютерами типа удаленного компьютера 480. Удаленный компьютер 480 может быть персональным компьютером, сервером, маршрутизатором, сетевым PC, одноранговым устройством или другим обычным сетевым узлом, и соответственно функции его конкретного воплощения, может включать в себя многие или все элементы, описанные выше для компьютера 410, хотя на фиг.4 проиллюстрировано только запоминающее устройство памяти 481. Логические соединения, изображенные на фиг.4, включают локальную сеть 471 (LAN) и глобальную сеть (WAN) 473, но могут также включать другие сети. Такие сетевые среды являются обычными в офисах, компьютерных сетях масштаба предприятия, интранет и Интернет.

При использовании в сетевой среде LAN компьютер 410 связан с LAN 471 через сетевой интерфейс или адаптер 470. При использовании в сетевой среде WAN компьютер 410 обычно содержит модем 472 или другие средства для установления связи по глобальной сети WAN 473, типа сети Интернет. Модем 472, который может быть внутренним или внешним, может быть связан с системной шиной 421 через интерфейс 460 пользовательского ввода или другой соответствующий механизм. В сетевой среде программные модули, изображенные для компьютера 410, или его частей, могут быть сохранены в удаленном запоминающем устройстве памяти. В качестве примера, но не ограничения, фиг.4 иллюстрирует удаленные прикладные программы 485 как постоянно находящиеся в устройстве памяти 481. Показанные сетевые соединения приведены в качестве примера и могут использоваться другие средства установления связи между компьютерами.

Заключение

Хотя системы и способы для проверки релевантности между терминами и содержанием веб-сайта описаны на языке, специфическом для структурных признаков и/или методологических операций или действий, понятно, что варианты осуществления, определенные в прилагаемой формуле изобретения, не обязательно ограничены конкретными признаками или описанными действиями. Соответственно, конкретные признаки и действия раскрыты как примерные формы реализации заявленного изобретения.

1. Способ проверки релевантности между терминами и содержанием веб-сайта, причем способ заключается в том, что:
получают содержание сайта из URL предложения;
формулируют расширенный(ые) термин(ы), семантически и/или контекстуально связанный(ые) с термином(ами) предложения, которые извлечены из поисковой машины, принимая во внимание высокую частоту появления терминов архивных запросов;
генерируют измерения подобия содержания и расширенного подобия из соответствующих комбинаций термина(ов) предложения, содержания сайта и расширенных терминов, при этом измерения подобия указывают на взаимосвязанность между соответствующими термином(ами) предложения, содержанием сайта и/или расширенными терминами;
вычисляют измерения подобия категории между расширенными терминами и содержанием сайта, принимая во внимание классификатор подобия, при этом классификатор подобия обучался из проанализированного содержания сайта, связанного с данными каталога;
вычисляют значение достоверности из объединенных одних из множества измерений подобия, где объединенные одни из измерений включают измерения подобия содержания, расширенных терминов и категории, при этом значение достоверности обеспечивает объективную меру релевантности между термином(ами) предложения и содержанием сайта;
анализируют значение достоверности для идентификации термина(ов) предложения, и
используют идентифицированное(ые) предложение(я) для увеличения трафика на сайт для освещения сайта;
при этом генерация измерений подобия категории дополнительно включает этапы:
выделяют признаки из содержания веб-сайта, связанного с данными каталога, причем признаки содержат комбинацию, по меньшей мере, одного из заголовка, метаданных, тела, гипертекстовой(ых) связи(ей), визуального(ых) признака(ов) и резюмирование посредством информации анализа топологии страницы;
сокращают размерность признаков посредством выбора признаков;
категоризируют признаки посредством модели классификатора для генерации классификатора подобия;
генерируют соответствующие векторы терминов из термина(ов) предложения, содержания сайта и расширенных терминов и вычисляют подобие между соответствующими векторами терминов как функцию классификатора подобия для определения измерений подобия категории.

2. Способ по п.1, в котором классификатор подобия основан на статистической основанной на n-грамме упрощенной байесовой модели (N-грамма), упрощенной байесовой модели (NB), машине с векторной поддержкой (SVM), ближайшем соседе (KNN), дереве решения, сообучении или увеличивающей модели классификации.

3. Способ по п.1, в котором формулировка расширенных терминов дополнительно содержит генерацию кластеров терминов из векторов терминов на основе вычисленного подобия термина, причем векторы терминов генерируются из архивных запросов, каждый архивный запрос имеет высокую частоту появления, и кластеры терминов включают в себя расширенные термины.

4. Способ по п.1, в котором генерация измерений подобия содержания дополнительно содержит генерацию соответствующих векторов терминов из термина(ов) предложений и содержания сайта и вычисление подобия между соответствующими векторами терминов для определения прямого подобия между термином(ами) предложения и содержанием сайта.

5. Способ по п.1, в котором генерация измерений расширенного подобия дополнительно содержит этапы:
генерируют соответствующие векторы терминов из термина(ов) предложения, содержания сайта и расширенных терминов и вычисляют подобие между соответствующими векторами терминов, чтобы определить измерения расширенного подобия между термином(ами) предложения и содержанием сайта.

6. Способ по п.1, в котором вычисление значения достоверности дополнительно содержит этапы:
обучают объединенный классификатор релевантности с использованием данных в форме <термин(ы), содержание веб-сайта, принять/отклонить>, принимая во внимание порог принятия/отклонения;
генерируют векторы признаков измерения подобия проверки релевантности (RSVM) из измерений подобия содержания, расширенного подобия и подобия категории и
отображают множество оценок из векторов признаков RSVM на значение достоверности через объединенный классификатор релевантности.

7. Способ по п.1, дополнительно содержащий этапы:
кэшируют термин(ы) предложения и URL предложения в базу данных предложений;
в ответ на получение запроса поиска определяют, релевантны ли термины запроса поиска термину(ам) предложения ввиду возможности того, что термины запроса поиска могут не точно соответствовать термину(ам) предложения; и
если термин(ы) запроса поиска определен(ы), как релевантный(ые) термину(ам) предложения, то передают URL предложения конечному пользователю.

8. Способ по п.1, дополнительно содержащий этапы:
определяют измерения подобия имени собственного из термина(ов) предложения и содержания сайта, причем измерения подобия имени собственного указывают на взаимосвязанность между любым(и) именем(ами) собственным(и), обнаруженным(и) в термине(ах) предложения, и содержанием сайта, принимая во внимание набор имен собственных;
при этом объединенные одни из множества измерений подобия включают в себя измерения подобия имени собственного.

9. Способ по п.8, в котором определение измерений подобия имени собственного дополнительно включает этапы:
в ответ на обнаружение имени собственного, содержащего, по меньшей мере, одно из термина(ов) предложения и/или содержании сайта, вычисляют оценку подобия имени собственного как:
Prop_Sim (термин, содержание сайта),
где Prop_Sim (термин, содержание сайта) равно: 1, когда термин содержит имя собственное Р, и содержание сайта содержит соответствующее имя собственное Q; нуль (0), когда термин содержит имя собственное Р, и содержание сайта содержит только несоответствующее имя(ена) собственное(ые); или 0,5.

10. Способ по п.1, дополнительно содержащий этапы:
определяют, что значение достоверности является относительно низким; и в ответ на определение идентифицируют один или более других терминов, которые семантически и/или контекстуально связаны с URL предложения.

11. Способ по п.10, в котором идентификация дополнительно содержит этапы:
генерируют набор кластеров терминов из векторов терминов на основе вычисленного подобия терминов, причем векторы терминов генерируются из результатов поисковой машины для переданных архивных запросов, где каждый архивный запрос имеет относительно низкую частоту появления по сравнению с другими терминами запроса в файле регистрации запроса;
и
оценивают содержание сайта, принимая во внимание термин(ы), определенный(е) кластерами терминов, для идентификации одного или более семантически и/или контекстуально связанных терминов, причем термины являются одним или более другими терминами.

12. Машиночитаемый носитель информации, содержащий выполняемые компьютером команды для проверки релевантности между терминами и содержанием веб-сайта, при этом выполняемые компьютером команды содержат команды для:
получения содержания сайта, удовлетворяющего URL предложения;
формулировки расширенного(ых) термина(ов), семантически и/или контекстуально связанного(ых) с термином(ами) предложения, которые извлечены из поисковой машины, принимая во внимание высокую частоту появления терминов архивных запросов;
генерации измерений подобия содержания и расширенного подобия из соответствующих комбинаций термина(ов) предложения, содержания сайта и расширенных терминов, при этом измерения подобия указывают на взаимосвязанность между соответствующими термином(ами) предложения, содержанием сайта и/или расширенными терминами;
вычисления измерений подобия категории между расширенными терминами и содержанием сайта, принимая во внимание классификатор подобия, при этом классификатор подобия обучался из проанализированного содержания сайта, связанного с данными каталога;
вычисления значения достоверности из объединенных одних из множества измерений подобия, где объединенные одни из измерений включают измерение подобия содержания, расширенных терминов и категории;
обеспечения объективной меры релевантности между термином(ами) предложения и содержанием сайта, как указано значением достоверности;
анализа значения достоверности для идентификации термина(ов) предложения и
использования идентифицированного(ых) предложения(ий) для увеличения трафика на сайт для освещения сайта;
при этом выполняемые компьютером команды для генерации измерений подобия категории дополнительно включают в себя команды для:
выделения признаков содержания веб-сайта, связанного с данными каталога, причем признаки содержат комбинацию, по меньшей мере, одного из заголовка, метаданных, тела, гипертекстовой(ых) связи(ей), визуального(ых) признака(ов) и резюмирование посредством информации анализа топологии страницы;
сокращения размерности признаков посредством выбора признаков;
категоризации признаков посредством модели классификатора для генерации классификатора подобия;
генерации соответствующих векторов терминов из термина(ов) предложения, содержания сайта и расширенных терминов и
вычисления подобия между соответствующими векторами терминов как функции классификатора подобия для определения измерений подобия категории.

13. Машиночитаемый носитель информации по п.12, в котором классификатор подобия основан на статистической основанной на n-грамме упрощенной байесовой модели (N-грамма), упрощенной байесовой модели (NB), машине с векторной поддержкой (SVM), ближайшем соседе (KNN), дереве решения, сообучении или увеличивающей модели классификации.

14. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды для формулирования расширенных терминов дополнительно содержат команды для генерации кластеров терминов из векторов терминов на основе вычисленного подобия терминов, причем векторы терминов генерируются из архивных запросов, каждый архивный запрос имеет высокую частоту появления, и кластеры терминов содержат расширенные термины.

15. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды для генерации измерений подобия содержания дополнительно содержат команды для генерации соответствующих векторов терминов из термина(ов) предложений и содержания сайта и вычисления подобия между соответствующими векторами терминов для определения прямого подобия между термином(ами) предложения и содержанием сайта.

16. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды для генерации измерений расширенного подобия дополнительно содержат команды для:
генерации соответствующих векторов терминов из термина(ов) предложения, содержания сайта и расширенных терминов; и вычисления подобия между соответствующими векторами терминов для определения измерений расширенного подобия между термином(ами) предложения и содержанием сайта.

17. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды для вычисления значения достоверности дополнительно содержат команды для:
обучения объединенного классификатора релевантности с использованием данных в форме <термин(ы), содержание веб-сайта, принять/отклонить>, принимая во внимание порог принятия/отклонения;
генерации векторов признаков измерения подобия проверки релевантности (RSVM) из измерений подобия содержания, расширенного подобия и подобия категории и
отображения множества оценок из векторов признаков RSVM на значение достоверности через объединенный классификатор релевантности.

18. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды дополнительно содержат команды для:
кэширования термина(ов) предложения и URL предложения в базу данных предложений;
определения в ответ на получение запроса поиска релевантны ли термины запроса поиска термину(ам) предложения, ввиду возможности того, что термины запроса поиска могут не точно соответствовать термину(ам) предложения; и
если термин(ы) запроса поиска определен(ы) как релевантный(е) термину(ам) предложения, то сообщения URL предложения конечному пользователю.

19. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды дополнительно содержат команды для:
определения измерения подобия имени собственного из термина(ов) предложения и содержания сайта, причем измерение подобия имени собственного указывает на взаимосвязанность между любым(и) именем(ами) собственным(и), обнаруженным(и) в термине(ах) предложения, и содержанием сайта, принимая во внимание набор имен собственных;
при этом объединенные одни из множества измерений подобия содержат измерения подобия имени собственного.

20. Машиночитаемый носитель информации по п.19, в котором выполняемые компьютером команды для определения измерений подобия имени собственного дополнительно содержат команды для:
вычисления в ответ на обнаружение имени собственного в термине(ах) предложения и/или содержании сайта оценки подобия имени собственного как:
Prop_Sim (термин, содержание сайта) и
где Prop_Sim (термин, содержание сайта) равно: 1, когда термин содержит имя собственное Р, и содержание сайта содержит соответствующее имя собственное Q; нуль (0), когда термин содержит имя собственное Р, и содержание сайта содержит только несоответствующее имя(ена) собственное(ые); или 0,5.

21. Машиночитаемый носитель информации по п.12, в котором выполняемые компьютером команды дополнительно содержат команды для:
определения, что значение достоверности является относительно низким; и
в ответ на определение идентификации одного или более других терминов, которые семантически и/или контекстуально связаны с URL предложения.

22. Машиночитаемый носитель информации по п.21, в котором выполняемые компьютером команды идентификации дополнительно содержат команды для:
генерации набора кластера терминов из векторов терминов на основе вычисленного подобия терминов, причем векторы терминов генерируются из результатов поисковой машины для представленных архивных запросов, где каждый архивный запрос имеет относительно низкую частоту появления по сравнению с другими терминами запроса в файле регистрации запроса; и
оценки содержания сайта, принимая во внимание термин(ы), определенный(е) кластерами терминов для идентификации одного или более семантически и/или контекстуально связанных терминов, причем термины являются одним или более другими терминами.

23. Компьютерное устройство для проверки релевантности между терминами и содержанием веб-сайта, причем компьютерное устройство содержит:
процессор и
память, присоединенную к процессору, причем память содержит команды компьютерной программы, исполняемые процессором для:
получения содержания сайта, удовлетворяющего URL предложения;
формулировки расширенного(ых) термина(ов), семантически и/или контекстуально связанного(ых) с термином(ами) предложения;
генерации измерений подобия содержания и расширенного подобия из соответствующих комбинаций термина(ов) предложения, содержания сайта и расширенных терминов, при этом измерения подобия указывают на взаимосвязанность между соответствующим(и) термином(ами) предложения, содержанием сайта и/или расширенными терминами;
вычисления значения достоверности из объединенных одних из множества измерений подобия, где объединенные одни из измерений включают измерение подобия содержания, расширенных терминов и категории;
обеспечения объективной меры релевантности между термином(ами) предложения и содержанием сайта, как указано значением достоверности;
анализа значения достоверности для идентификации термина(ов) предложения и
использования идентифицированного(ых) предложения(ий) для увеличения трафика на сайт для освещения сайта;
при этом исполняемые компьютером команды для генерации измерений подобия категории дополнительно включают в себя команды для:
выделения признаков содержания веб-сайта, связанного с данными каталога, причем признаки содержат комбинацию, по меньшей мере, одного из заголовка, метаданных, тела, гипертекстовой(ых) связи(ей), визуального(ых) признака(ов) и резюмирование посредством информации анализа топологии страницы;
сокращения размерности признаков посредством выбора признаков;
категоризации признаков посредством модели классификатора для генерации классификатора подобия;
генерации соответствующих векторов терминов из термина(ов) предложения, содержания сайта и расширенных терминов и вычисления подобия между соответствующими векторами терминов как функции классификатора подобия для определения измерений подобия категории.

24. Компьютерное устройство по п.23, в котором классификатор подобия основан на статистической основанной на n-грамме упрощенной байесовой модели (N-грамма), упрощенной байесовой модели (NB), машине с векторной поддержкой (SVM), ближайшем соседе (KNN), дереве решения, сообучении или увеличивающей модели классификации.

25. Компьютерное устройство по п.23, в котором выполняемые компьютером команды для формулирования расширенных терминов дополнительно содержат команды для генерации кластеров терминов из векторов терминов на основе вычисленного подобия терминов, причем векторы терминов генерируются из архивных запросов, каждый архивный запрос имеет высокую частоту появления, и кластеры терминов содержат расширенные термины.

26. Компьютерное устройство по п.23, в котором выполняемые компьютером команды для генерации измерений подобия содержания дополнительно содержат команды для генерации соответствующих векторов терминов из термина(ов) предложений и содержания сайта и вычисления подобия между соответствующими векторами терминов для определения прямого подобия между термином(ами) предложения и содержанием сайта.

27. Компьютерное устройство по п.23, в котором выполняемые компьютером команды для генерации измерений расширенного подобия дополнительно содержат команды для:
генерации соответствующих векторов терминов из термина(ов) предложения, содержания сайта и расширенных терминов; и вычисления подобия между соответствующими векторами терминов для определения измерений расширенного подобия между термином(ами) предложения и содержанием сайта.

28. Компьютерное устройство по п.23, в котором выполняемые компьютером команды для вычисления значения достоверности дополнительно содержат команды для:
обучения объединенного классификатора релевантности с использованием данных в форме <термин(ы), содержание веб-сайта, принять/отклонить>, принимая во внимание порог принятия/отклонения;
генерации векторов признаков измерения подобия проверки релевантности (RSVM) из измерений подобия содержания, расширенного подобия и подобия категории; и
отображения множества оценок из векторов признаков RSVM на значение достоверности через объединенный классификатор релевантности.

29. Компьютерное устройство по п.23, в котором выполняемые компьютером команды дополнительно содержат команды для:
определения измерения подобия имени собственного из термина(ов) предложения и содержания сайта, причем измерение подобия имени собственного указывает на взаимосвязанность между любым(и) именем(ами) собственным(и), обнаруженным(и) в термине(ах) предложения, и содержанием сайта, принимая во внимание набор имен собственных;
при этом объединенные одни из множества измерений подобия содержат измерения подобия имени собственного.

30. Компьютерное устройство по п.29, в котором выполняемые компьютером команды для определения измерений подобия имени собственного дополнительно содержат команды для:
вычисления в ответ на обнаружение имени собственного в термине(ах) предложения и/или содержании сайта оценки подобия имени собственного как:
Prop_Sim (термин, содержание сайта) и
где Prop_Sim (термин, содержание сайта) равно: 1, когда термин содержит имя собственное Р, и содержание сайта содержит соответствующее имя собственное Q; нуль (0), когда термин содержит имя собственное Р, и содержание сайта содержит только несоответствующее имя(ена) собственное(ые); или 0,5.

31. Компьютерное устройство по п.23, в котором выполняемые компьютером команды дополнительно содержат команды для:
определения, что значение достоверности является относительно низким; и
в ответ на определение идентификации одного или более других терминов, которые семантически и/или контекстуально связаны с URL предложения.

32. Компьютерное устройство по п.31, в котором выполняемые компьютером команды идентификации дополнительно содержат команды для:
генерации набора кластера терминов из векторов терминов на основе вычисленного подобия терминов, причем векторы терминов генерируются из результатов поисковой машины для представленных архивных запросов, где каждый архивный запрос имеет относительно низкую частоту появления по сравнению с другими терминами запроса в файле регистрации запроса; и
оценки содержания сайта, принимая во внимание термин(ы), определенный(е) кластерами терминов для идентификации одного или более семантически и/или контекстуально связанных терминов, причем термины являются одним или более другими терминами.

33. Компьютерное устройство для проверки релевантности между терминами и содержанием веб-сайта, при этом компьютерное устройство содержит:
средство извлечения для получения содержания сайта из URL предложения;
средство формулирования для идентификации расширенного(ых) термина(ов), семантически и/или контекстуально связанного(ых) с термином(ами) предложения,
средство генерации для формирования измерений подобия содержания и расширенного подобия из соответствующих комбинаций термина(ов) предложения, содержания сайта и расширенных терминов, при этом измерения подобия указывают на взаимосвязанность между соответствующим(и) термином(ами) предложения, содержанием сайта и/или расширенными терминами;
средство вычисления для определения измерений подобия категории между расширенными терминами и содержанием сайта, принимая во внимание классификатор подобия, при этом классификатор подобия обучался из проанализированного содержания сайта, связанного с данными каталога;
средство вычисления для генерации значения достоверности из объединенных одних из множества измерений подобия, где объединенные одни из измерений включают измерение подобия содержания, расширенных терминов и категории, при этом значение достоверности обеспечивает объективную меру релевантности между термином(ами) предложения и содержанием сайта,
средство анализа для анализа значения достоверности для идентификации термина(ов) предложения и
средство увеличения для увеличения трафика на сайт с использованием идентифицированного(ых) термина(ов) предложения;
при этом средство генерации дополнительно содержит:
средство выделения для получения признаков из содержания веб-сайта, связанного с данными каталога, причем признаки содержат комбинацию, по меньшей мере, одного из заголовка, метаданных, тела, гипертекстовой(ых) связи(ей), визуального(ых) признака(ов) и резюмирование посредством информации анализа топологии страницы;
средство сокращения для сокращения размерности признаков посредством выбора признаков;
средство категоризации для категоризации признаков посредством модели классификатора для генерации классификатора подобия;
средство генерации для создания соответствующих векторов терминов из термина(ов) предложения, содержания сайта и расширенных терминов и средство вычисления для идентификации подобия между соответствующими векторами терминов как функции классификатора подобия для определения измерений подобия категории.

34. Компьютерное устройство по п.33, в котором компьютерное средство формулирования дополнительно содержит средство генерации для создания кластеров терминов из векторов терминов на основе вычисленного подобия термина, причем вектора терминов генерируются из архивных запросов, каждый архивный запрос имеет высокую частоту появления, и кластеры терминов содержат расширенные термины.

35. Компьютерное устройство по п.33, в котором средство генерации дополнительно содержит средство создания для генерации соответствующих векторов терминов из термина(ов) предложения и содержания сайта и вычисления подобия между соответствующими векторами терминов для определения прямого подобия между термином(ами) предложения и содержанием сайта.

36. Компьютерное устройство по п.33, в котором средство генерации дополнительно содержит:
средство создания для генерации соответствующих векторов терминов из термина(ов) предложения, содержания сайта и расширенных терминов и средство вычисления для определения подобия между соответствующими векторами терминов для определения измерений расширенного подобия между термином(ами) предложения и содержанием сайта.

37. Компьютерное устройство по п.33, в котором средство вычисления дополнительно содержит:
средство обучения для обучения объединенного классификатора релевантности с использованием данных в форме <термин(ы), содержание веб-сайта, принять/отклонить, принимая во внимание порог принятия/отклонения>;
средство генерации для генерации векторов признаков измерения подобия проверки релевантности (RSVM) из измерений подобия содержания, расширенного подобия и подобия категории и средство отображения для коррелирования множества оценок из векторов признаков RSVM со значением достоверности через объединенный классификатор релевантности.

38. Компьютерное устройство по п.33, дополнительно содержащее:
средство определения для определения измерений подобия имени собственного из термина(ов) предложения и содержания сайта, причем измерения подобия имени собственного указывают на взаимосвязанность между любым(и) именем(ами) собственным(и), обнаруженным(и) в термине(ах) предложения, и содержанием сайта, принимая во внимание набор имен собственных; и
при этом объединенные одни из множества измерений подобия включают в себя измерения подобия имени собственного.

39. Компьютерное устройство по п.38, в котором средство определения для определения измерений подобия имени собственного дополнительно содержит в ответ на обнаружение имени собственного, содержащего, по меньшей мере, одно из термина(ов) предложения и содержания сайта, средство вычисления для вычисления оценки подобия имени собственного.

40. Компьютерное устройство по п.33, дополнительно содержащее:
средство определения для определения того, что значение достоверности является относительно низким и
средство идентификации для идентификации в ответ на определение одного или более других терминов, которые семантически и/или контекстуально связаны с URL предложения.

41. Компьютерное устройство по п.40, в котором средство идентификации дополнительно содержит:
средство генерации для генерации набора кластеров терминов из векторов терминов на основе вычисленного подобия терминов, причем векторы терминов генерируются из результатов поисковой машины для представленных архивных запросов, где каждый архивный запрос имеет относительно низкую частоту появления по сравнению с другими терминами запроса в файле регистрации запроса; и
средство оценки для оценки содержания сайта, принимая во внимание термин(ы), определенный(е) кластерами терминов для выделения одного или более семантически и/или контекстуально связанных терминов, причем термины являются одним или более другими терминами.

Изобретение относится к способам и системам управления контентом. .

Интерфейс системы перекодировки // 2371875

Изобретение относится к средствам для выполнения транзакций по перекодировке. .

Системы и способы моделирования данных в основанной на предметах платформе хранения // 2371757

Изобретение относится к области хранения и извлечения информации и, в частности, к активной платформе хранения для организации, поиска и совместного использования различных типов данных в компьютеризованной системе.

Устройство воспроизведения данных, способ управления контентом, программа и носитель информации // 2370905

Изобретение относится к устройствам воспроизведения данных для воспроизведения контента, сохраненного на носителе записи посредством устройства захвата изображения.

Автоматизированный способ поиска информации в компьютерных сетях посредством построения и/или преобразования эквивалентных информации последовательностей компьютерных кодов и автоматизированный комплекс для его осуществления // 2370812

Изобретение относится к вычислительной технике и может быть использовано, например, в качестве автоматизированного способа поиска информации в компьютерных сетях.

Автоматическая кластеризация запросов // 2368948

Система и способ фильтрации и организации элементов на основе общих свойств // 2368947

Изобретение относится к системе и способу визуального отображения элементов, и в частности к системе и способу фильтрации и организации элементов на основе общих свойств.

Система управления доступом к ресурсам сети интернет // 2368004

Изобретение относится к вычислительной технике, в частности к системе управления доступом к ресурсам сети Интернет в зависимости от категории запрашиваемых ресурсов и принятой политики безопасности.

Система и способ для динамического генерирования расширения допускающего выбор поиска // 2367013

Изобретение относится к интерфейсу поиска, допускающему выбор поиска после введения элементов поиска. .

Поиск произвольного текста и поиск по атрибутам в данных электронного руководства по программам // 2365984

Изобретение относится к поиску произвольного текста и атрибутов данных электронного руководства по программам. .

Файловая система для отображения элементов различных типов и из различных физических местоположений // 2376630

Изобретение относится к файловым системам, а именно к файловым системам для отображения элементов различных типов и из различных физических местоположений

Способ и система для классификации дисплейных страниц с помощью рефератов // 2377645

Изобретение относится к средствам обеспечения классификации информации

Системы и способы для обеспечения услуг синхронизации для блоков информации, управляемых аппаратной/программной интерфейсной системой // 2377646

Система и способ для представления элементов, сохраненных на компьютере // 2377647

Изобретение относится к области компьютерного программного обеспечения

Устройство поиска информации // 2378691

Изобретение относится к вычислительной технике и может быть использовано для построения средств нечисловой обработки информации

Перечни и признаки источников/адресатов для предотвращения нежелательных почтовых сообщений // 2378692

Изобретение относится к средствам идентификации почтовых сообщений

Установление соответствия запроса и записи // 2378693

Обнаружение аномалий перспективных представлений данных // 2378694

Изобретение относится к области исследования данных

Регистрация и извлечение информации об изменении таблицы базы данных, которая может использоваться для признания недействительными элементов кэша // 2380748

Изобретение относится к управлению содержимым в кэше

Устройство сортировки информации методом преобразования данных в адрес // 2382396

Изобретение относится к техническим средствам информатики и вычислительной техники и может быть использовано для создания быстродействующих специализированных цифровых устройств по упорядочению двоичной информации, выполняющих сортировку положительных и отрицательных чисел и осуществляющих подсчет количества одинаковых чисел и символов