Идентификация шаблонов запросов и ассоциированной агрегированной статистики среди поисковых запросов

Изобретение относится к вычислительной технике. Технический результат заключается в сохранении конфиденциальности информации при обработке поисковых запросов. Способ анализа журнала поиска поисковых запросов содержит идентификацию, в журнале поиска частных поисковых запросов и соответствующих пост-поисковых действий, множества не-частных n-грамм, содержащихся в частных поисковых запросах, которые удовлетворяют критерию конфиденциальности; генерирование, на основе множества не-частных n-грамм, множества шаблонов запросов; определение агрегированной статистики поисковых действий, ассоциированной с каждым из множества шаблонов запросов; в ответ на определение, что агрегированная статистика поисковых действий для заданного шаблона запроса удовлетворяет критерию производительности, ранжирование предложений запроса или результатов поиска, которые представлены в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, основываясь, по меньшей мере частично, на агрегированной статистике поисковых действий, ассоциированной с заданным шаблоном запроса. 3 н. и 12 з.п. ф-лы, 4 ил.

 

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

[0001] Журнал поиска поисковых запросов может быть полезен для определения шаблонов запросов, общих среди поисковых запросов. Шаблоны запросов могут быть полезны для различных целей, таких как генерирование и/или ранжирование альтернативных предложений запросов, ранжирование результатов поиска и т.д. Однако некоторые поисковые запросы могут включать в себя личную информацию пользователя. Это особенно справедливо в контекстах, когда поисковые запросы направляются в системы, которые считаются частными для пользователя и/или для объекта, с которым пользователь ассоциирован (например, его работодателя). Например, многие персональные или внутри-объектные системы, такие как системы электронной почты, файловые системы, системы управления документами и т.д., могут использоваться для поиска пользователями, которые используют поисковые запросы, относительно вероятно, содержащие личную информацию, такую как имена, контактная информация, номера счетов и т.д.

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

[0002] Настоящее раскрытие относится, главным образом, к сохранению конфиденциальности информации при обработке поисковых запросов. Настоящее раскрытие направлено, в основном, на способы, устройства и считываемые компьютером носители (временные и не-временные) для анализа журнала поиска поисковых запросов (многие из которых могут быть личными (конфиденциальными) и/или содержать потенциально конфиденциальную информацию) и соответствующих пост-поисковых действий, чтобы генерировать один или несколько шаблонов запросов без открытия потенциально конфиденциальной информацию человеку-пользователю. Для одного или нескольких сгенерированных шаблонов запросов, может быть определена агрегированная статистика поисковых действий (включая статистику о пост-поисковых действиях), ассоциированная с поисковыми запросами, которые соответствуют одному или нескольким шаблонам запросов. Те один или несколько шаблонов запросов и соответствующая агрегированная статистика поисковых действий могут затем использоваться для различных целей, некоторые из которых будут описаны ниже. Например, агрегированная статистика поисковых действий, ассоциированная с данным шаблоном запроса, может использоваться для изменения методологии, используемой, чтобы генерировать данные, которые предоставляются пользователям, представляющим поисковые запросы, которые соответствуют заданному шаблону запроса.

[0003] В некоторых реализациях, может быть обеспечен реализуемый компьютером способ, который включает в себя этапы: идентификации, в журнале поиска частных поисковых запросов и соответствующих пост-поисковых действий, множества не-частных n-грамм (групп из n последовательных символов), содержащихся в частных поисковых запросах, которые удовлетворяют критерию конфиденциальности; генерирования, из журнала поиска, на основе множества не-частных n-грамм, множества шаблонов запросов; определения, из журнала поиска, агрегированной статистики поисковых действий, ассоциированной с каждым из множества шаблонов запросов, причем агрегированная статистика поисковых действий, ассоциированная с каждым шаблоном запроса, указывает на поисковые действия, ассоциированные с множеством частных поисковых запросов в журнале поиска, которые соответствуют шаблону запроса; и в ответ на определение, что агрегированная статистика поисковых действий для данного шаблона запроса удовлетворяют критерию производительности, изменения методологии для генерирования данных, которые представляются в ответ на поисковые запросы, которые соответствуют данному шаблону запроса, на основе агрегированной статистики поисковых действий, ассоциированной с заданным шаблоном запроса.

[0004] Этот способ и другие реализации технологии, раскрытой в настоящем документе, могут, каждое, опционально включать в себя один или несколько из следующих признаков.

[0005] В некоторых реализациях, методология может быть изменена так, что предложения запросов, представленные в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, ранжируются, основываясь, по меньшей мере частично, на агрегированной статистике поисковых действий, ассоциированной с заданным шаблоном запроса.

[0006] Таким образом, можно добиться управления вероятностью предложений запросов, включающих в себя конфиденциальную информацию.

[0007] В некоторых реализациях, методология может быть изменена так, что результаты поиска, представленные в ответ на поисковые запросы, которые соответствуют заданному шаблону, ранжируются, основываясь, по меньшей мере частично, на агрегированной статистике поисковых действий, ассоциированной с заданным шаблоном запроса.

[0008] Таким образом, можно добиться управления вероятностью результатов поиска, включающих в себя конфиденциальную информацию.

[0009] В некоторых реализациях, критерий конфиденциальности может быть удовлетворен n-граммами, которые встречаются в журнале поиска с частотой, которая удовлетворяет порогу частоты. В некоторых реализациях, критерий конфиденциальности может быть удовлетворен n-граммами, которые встречаются в журнале поиска по меньшей мере минимальное число раз. В некоторых реализациях, генерирование может включать в себя генерирование гистограммы не-частных n-грамм на основе того, как часто не-частные n-граммы встречаются среди частных поисковых запросов.

[0010] Эти признаки могут обеспечивать категоризацию частных и не-частных n-грамм с относительно невысокими вычислительными затратами.

[0011] В некоторых реализациях, агрегированная статистика поисковых действий, ассоциированная с каждым из множества шаблонов запросов, может включать в себя общее количество поисковых запросов в журнале поиска, которые соответствуют шаблону запроса. В некоторых реализациях, агрегированная статистика поисковых действий, ассоциированная с каждым из множества шаблонов запросов, включает в себя ряд различных поисковых запросов в журнале поиска, которые соответствуют шаблону запроса.

[0012] В некоторых реализациях, агрегированная статистика поисковых действий, ассоциированная с заданным шаблоном запроса, может включать в себя агрегированную статистику, относящуюся к пост-поисковым действиям, ассоциированным с множеством частных поисковых запросов в журнале поиска, которые соответствуют заданному шаблону запроса. В некоторых реализациях, агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, может включать в себя статистику позиции щелчка (ʺкликаʺ), ассоциированную с заданным шаблоном запроса. В некоторых реализациях, агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, может включать в себя частоту клика, ассоциированную с заданным шаблоном запроса. В некоторых реализациях, агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, может включать в себя частоту отказа, ассоциированную с заданным шаблоном запроса. В некоторых реализациях, критерий производительности удовлетворяется, когда частота отказа удовлетворяет минимальному порогу.

[0013] Другие реализации могут включать в себя не-временный считываемый компьютером носитель хранения, содержащий инструкции, исполняемые процессором, чтобы выполнять способ, такой как один или более из способов, описанных выше. Еще одна реализация может включать в себя систему, включающую в себя память и один или несколько процессоров, действующих для исполнения инструкций, сохраненных в памяти, чтобы выполнять способ, такой как один или несколько из способов, описанных выше.

[0014] Следует понимать, что все комбинации вышеизложенных концепций и дополнительных концепций, подробно описанных в настоящем документе, рассматриваются как часть предмета, раскрытого в настоящем документе. Например, все комбинации заявленного предмета изобретения, представленные в конце этого раскрытия, рассматриваются как часть предмета, раскрытого в настоящем документе.

Краткое описание чертежей

[0015] Фиг. 1 иллюстрирует среду, в которой один или несколько журналов поисковых запросов могут быть проанализированы различными компонентами настоящего раскрытия, чтобы генерировать шаблоны запросов и соответствующую агрегированную статистику поисковых действий в соответствии с различными реализациями.

[0016] Фиг. 2 показывает, как частные поисковые запросы и соответствующие пост-поисковые действия могут обрабатываться, чтобы получать шаблоны запросов и ассоциированную агрегированную статистику поисковых действий в соответствии с различными реализациями.

[0017] Фиг. 3 показывает блок-схему последовательности операций, иллюстрирующую примерный способ генерирования шаблонов запросов и соответствующей агрегированной статистики поисковых действий и применения этой информации для различных целей в соответствии с различными реализациями.

[0018] Фиг. 4 схематично изображает примерную архитектуру компьютерной системы.

Подробное описание

[0019] Фиг. 1 иллюстрирует примерную среду, в которой пользователи могут выполнять поиски в различных системах, которые могут считаться частными. Примерная среда включает в себя клиентское устройство 102, систему 104 хранения документов и систему 106 электронной почты. Система 104 хранения документов и/или система 106 электронной почты могут быть реализованы на одном или нескольких компьютерах, которые осуществляют связь, например, через сеть (не показана). Система 104 хранения документов и/или система электронной почты 106 являются примерами систем, в которых могут быть реализованы описанные здесь методы и/или с которыми могут взаимодействовать системы, компоненты и способы, описанные здесь.

[0020] Пользователь может взаимодействовать с системой 104 хранения документов и/или системой 106 электронной почты через клиентское устройство 102. Система 104 хранения документов и/или система 106 электронной почты могут принимать поисковые запросы 108 от клиентского устройства 102 и возвращать результаты 110 поиска в ответ на поисковые запросы 108. Как используется в настоящем документе, ʺпоисковый запросʺ 108 может относиться к запросу информации, который может быть направлен на интерфейс поиска, такой как машина поиска. Во многих случаях, поисковый запрос может включать в себя одну или несколько n-грамм, которые совместно формируют запрос на информацию. Однако это не подразумевается в качестве ограничения. Поисковые запросы 108 могут поступать и в других формах, таких как изображения, аудио и т.д. В некоторых реализациях, другие компьютерные устройства могут направлять поисковые запросы в систему 104 хранения документов и/или систему 106 электронной почты, такие как дополнительные клиентские устройства и/или один или несколько серверов, реализующих услугу для веб-сайта, который имеет партнерские отношения с поставщиком системы 104 хранения документов и/или системы 106 электронной почты. Однако для краткости примеры описаны в контексте клиентского устройства 102.

[0021] В различных реализациях, клиентское устройство 102 может быть компьютером, коммуникативно связанным с системой 104 хранения документов и/или системой 106 электронной почты через одну или несколько сетей (не показаны), таких как локальная сеть (LAN) или глобальная сеть (WAN), такая как Интернет. Клиентское устройство 102 может быть, например, настольным вычислительным устройством, вычислительным устройством-ноутбуком, планшетным вычислительным устройством, вычислительным устройством мобильного телефона, вычислительным устройством транспортного средства пользователя (например, автомобильной системой связи, автомобильной развлекательной системой, автомобильной навигационной системой) или носимым устройством пользователя, которое включает в себя вычислительное устройство (например, часы пользователя с вычислительным устройством, очки пользователя с вычислительным устройством). Могут быть обеспечены дополнительные и/или альтернативные клиентские устройства. Клиентское устройство 102 обычно включает в себя одно или несколько приложений для облегчения представления поисковых запросов и отправки и приема данных по сети. Например, клиентское устройство 102 может выполнять одно или несколько приложений, таких как браузер 112, клиент 114 электронной почты и/или клиент 116 документов, которые позволяют пользователям формулировать поисковые запросы и направлять запросы в систему 104 хранения документов и/или систему 106 электронной почты.

[0022] На фиг. 1, система 104 хранения документов включает в себя механизм 122А представления, механизм 124А ранжирования и механизм 126А анализа запроса. Аналогично, система 106 электронной почты включает в себя свой собственный механизм 122B представления, механизм 124B ранжирования и механизм 126B анализа запроса. Однако это не подразумевается в качестве ограничения. В различных реализациях, система 104 хранения документов и система электронной почты могут быть взаимосвязаны, например, ввиду того, что они управляются одним и тем же объектом, и/или ввиду того, что доступ к ним пользователя осуществляется с использованием одного набора учетных данных. В таких реализациях, система 104 хранения документов и система 106 электронной почты могут совместно использовать общий механизм 122 представления, механизм 124 ранжирования и/или механизм 126 анализа запроса. Для краткости, если только не даются ссылки на конкретный компонент системы 104 хранения документов или системы 106 электронной почты, в общем случае эти компоненты будут упоминаться с использованием ссылочных позиций 122, 124 и 126. В некоторых реализациях, один или несколько механизмов 122, 124 и/или 126 могут быть опущены, объединены и/или реализованы в компоненте, который является отдельным от системы 104 хранения документов и/или системы 106 электронной почты. В некоторых реализациях, один или несколько из механизмов 122, 124 и/или 126 или любая их операционная часть и/или механизм 128 индексирования документа и/или механизм 132 индексирования электронной почты (описаны ниже) могут быть реализованы в компоненте, который исполняется клиентским устройством 102.

[0023] Система 104 хранения документов может предоставлять пространство онлайн-хранения для пользователей, чтобы хранить документы, например, бесплатно или за плату. В некоторых реализациях, система 104 хранения документов может быть службой хранения и синхронизации файлов, которая размещает документы для пользователей способом, который часто упоминается как ʺоблачное хранилищеʺ. Пользователь может указывать местоположение в файловой системе локального устройства, управляемого пользователем (например, клиентского устройства 102) для облачного хранилища. Любые документы, хранящиеся в местоположении облачного хранилища клиентского устройства 102, могут передаваться на/синхронизироваться с аналогично созданными местоположениями других устройств, управляемых пользователем. ʺДокументыʺ, упомянутые здесь, могут включать в себя веб-страницы, документы обработки текстов, документы формата PDF (формата переносимого документа), изображения, электронные письма, видеоролики и электронные таблицы, презентации, мультимедийные файлы, фотографии и аудиофайлы, в качестве лишь некоторых примеров. Каждый документ может включать в себя контент, такой как, например, текст, изображения, видео, звуки, встроенная информация (например, метаинформация и/или гиперссылки) и/или встроенные инструкции (например, реализации ECMAScript, такие как JavaScript).

[0024] Система 104 хранения документов может включать в себя механизм 128 индексирования документа, который сконфигурирован, чтобы поддерживать индекс 130 для использования системой 104 хранения документов. Механизм 128 индексирования документов может обрабатывать документы и обновлять записи индекса в индексе 130 с использованием традиционных и/или иных методов индексирования, чтобы обеспечить доступность документов для поиска. В различных реализациях, пользователь может направить поисковый запрос 108 в систему 104 хранения документов для поиска документов, которые пользователь сохранил в указанном облачном хранилище. Например, пользователь может управлять браузером 112 для входа на веб-сайт, который работает как интерфейс для доступа к документам, хранящимся в системе 104 хранения документов. Веб-сайт может предоставлять панель поиска или другой аналогичный интерфейс, который позволяет пользователю направлять поисковый запрос 108, например, из одной или нескольких n-грамм, чтобы найти конкретные документы. Как только поисковый запрос 108 выгружен в систему 104 хранения документов, механизм 128 индексирования документов может выполнять различные традиционные или иные методы для поиска документов, соответствующих поисковому запросу. Дополнительно или альтернативно, пользователь может управлять клиентом 116 документов, который может представляться подобным или даже быть включенным в менеджер файлов, обеспечиваемый операционной системой клиентского устройства 102, чтобы искать индекс 130 для документов, которые пользователь сохранил в облачном хранилище.

[0025] Во многих отношениях, система 106 электронной почты может работать аналогично системе 104 хранения документов, за исключением того, что система 106 электронной почты сконфигурирована специально для поддержки электронных писем и другой информации, ассоциированной с электронными письмами, такой как вложения, контакты, заметки, записи календаря и т.д., которые часто хранятся вместе с электронными письмами. Как и в случае системы 104 хранения документов, система 106 электронной почты включает в себя механизм 132 индексирования электронной почты, который обрабатывает электронные письма и ассоциированную информацию и обновляет записи индекса в индексе 134 с использованием традиционных и/или иных методов индексирования, чтобы сделать электронные письма и/или ассоциированную с ними информацию доступными для поиска. Так, например, пользователь может управлять интерфейсом поиска клиента 114 электронной почты для поиска содержимого электронных писем, вложений, записей календаря, заметок, задач, напоминаний, контактов и т.д. Или, аналогично системе 104 хранения документов, пользователь может управлять браузером 112 для входа в веб-интерфейс для системы 106 электронной почты. Веб-интерфейс может предоставлять панель поиска или аналогичную функциональность, которая позволяет пользователю искать содержимое, ассоциированное с электронным письмом.

[0026] В различных реализациях, система 104 хранения документов и/или система 106 электронной почты может поддерживать журнал 120 поиска. На фиг. 1, отдельные журналы 120А и 120В поиска предусмотрены для системы 104 хранения документов и системы 106 электронной почты, соответственно, но могут быть объединены в один журнал поиска в других реализациях. Журнал 120 поиска может хранить различные атрибуты поисковых запросов, направленных в систему 104 хранения документов и/или систему 106 электронной почты. Например, в некоторых реализациях, журнал 120 поиска может хранить, для каждого направленного поискового запроса, идентификатор пользователя, ассоциированный с пользователем, который направил запрос, временную метку, полный текст поискового запроса (т.е. все n-граммы запроса) и так называемые пост-поисковые действия, ассоциированные с поисковым запросом. ʺПост-поисковые действияʺ, ассоциированные с конкретным поисковым запросом, могут включать в себя, без ограничения указанным, действия, предпринятые пользователем после отправки поискового запроса и возвращения результатов поиска. Например, в некоторых реализациях, пост-поисковые действия могут включать в себя ранжирование документа/результата поиска/графического элемента, указанного ʺкликомʺ пользователя после того, как поисковый запрос был направлен, указание, что не было сделано кликов (например, пользователь отказался от поискового запроса в пользу другого действия, такого как направление нового поискового запроса), указание некоторого другого графического элемента, который пользователь отметил кликом (например, предложение запроса, контакт в контексте электронного письма и т.д.) во время или после направления поискового запроса и т.д.

[0027] В этой спецификации, термины ʺбаза данныхʺ и ʺиндексʺ будут использоваться в широком смысле для обозначения любого набора данных. Данные базы данных и/или индекса не требуется структурировать каким-либо конкретным образом, и они могут храниться на устройствах хранения в одном или нескольких географических местоположениях. Так, например, индексы 120, 130 и/или 134 могут включать в себя множество наборов данных, каждый из которых может быть организован и доступен различным образом.

[0028] Механизм 122 представления (включая 122A или 122B) может обеспечивать результаты 110 поиска для представления пользователю клиентского устройства 102. Например, механизм 122 представления может обеспечивать, на клиентское устройство 102 в ответ на поисковый запрос 108, список результатов поиска и/или другие элементы пользовательского интерфейса. В некоторых реализациях, механизм 122 представления может приводить к тому, что некоторые результаты поиска, которые удовлетворяют различным критериям, относящимся к релевантности, своевременности и т.д., визуально выделяются или представляются перед другими результатами поиска. Например, некоторые результаты могут быть визуально выделены относительно других с использованием шрифтов, размеров шрифта, цветов, анимации, границ, полей или других визуальных знаков. В других случаях, некоторые результаты могут быть представлены первыми, а за ними следуют менее подходящие результаты поиска.

[0029] Механизм 124 ранжирования (включая 124A или 124B) может использовать соответствующий индекс (например, 130 и/или 134), чтобы идентифицировать документы, содержимое, связанное с электронной почтой, и/или другую информацию, отвечающую поисковому запросу 108, например, с использованием традиционных и/или иных методов поиска информации. В некоторых реализациях, механизм 124 ранжирования может вычислять оценки для документов, содержимого, связанного с электронной почтой, и другой информации, идентифицированной в качестве отвечающей поисковому запросу 108, например, с использованием одного или нескольких сигналов ранжирования. Каждый сигнал ранжирования может обеспечивать информацию о документе, содержимом, связанном с электронной почтой, или другую информацию, взаимосвязь между документом, содержимым, связанным с электронной почтой, или информацией и поисковым запросом 108 и/или взаимосвязь между документом, содержимым, связанным с электронной почтой, и пользователем, выполняющим поиск.

[0030] Механизм 126 анализа запроса (126А или 126В) может быть сконфигурирован, чтобы идентифицировать, в журнале 120 поиска (126А или 126В на фиг.1) частных поисковых запросов и соответствующих пост-поисковых действий, не-частное содержимое, такое как множество не-частных n-грамм, содержащихся в частных поисковых запросах, которые удовлетворяют критерию конфиденциальности. Так называемые ʺкритерии конфиденциальностиʺ могут быть в различных формах. Например, в некоторых реализациях критерий конфиденциальности удовлетворяется n-граммами, которые встречаются в журнале 120 поиска с частотой, которая удовлетворяет порогу частоты. В некоторых реализациях, критерий конфиденциальности удовлетворяется n-граммами, которые встречаются в журнале 120 поиска по меньшей мере минимальное число раз. В некоторых реализациях, не-частные n-граммы и ассоциированные с ними частоты, с которыми n-граммы встречаются в поисковых запросах, сохраненных в журнале 120 поиска, могут быть организованы в гистограмму. Менее частые n-граммы, которые, скорее всего, содержат частную информацию, могут быть отброшены или исключены из гистограммы. Эти признаки могут обеспечить категоризацию n-грамм как частных или не-частных с относительно невысокими вычислительными затратами.

[0031] На основании не-частного содержимого, удовлетворяющего критерию конфиденциальности, механизм 126 анализа запроса может выполнить еще один проход через журнал 120 поиска, чтобы сгенерировать множество так называемых шаблонов запросов. ʺШаблон запросаʺ может соответствовать одному или нескольким поисковым запросам в журнале 120 поиска. Шаблоны запросов могут иметь различные формы, включая, без ограничения указанным, регулярные выражения (например, ʺresume*ʺ, ʺ*design docʺ, ʺwhite paper*ʺ и т.д.). ʺЧастныеʺ n-граммы (т. е. те n-граммы, которые не удовлетворяют вышеупомянутым критериям конфиденциальности) не будут соответствовать ни одной из не-частных n-грамм и могут быть заменены, например, специальными символами. Соответственно, шаблоны запросов могут быть лишены частной информации, которая могла содержаться в поисковых запросах, сохраненных в журнале 120 поиска.

[0032] Механизм 126 анализа запроса также может быть сконфигурирован, чтобы определять, из журнала 120 поиска, агрегированную статистику поисковых действий, ассоциированную с каждым из множества шаблонов запросов. В различных реализациях, ʺагрегированная статистика поисковых действийʺ, ассоциированная с каждым шаблоном запроса, может указывать поисковые действия и пост-поисковые действия, ассоциированные с множеством частных поисковых запросов в журнале 120 поиска, которые соответствуют шаблону запроса.

[0033] В различных реализациях, агрегированная статистика поисковых действий, ассоциированная с данным шаблоном запроса, может включать в себя, например: общее и/или уникальное количество поисковых запросов в журнале 120 поиска, которые соответствуют заданному шаблону запроса; общее и/или уникальное количество пользователей, которые направили поисковые запросы, которые соответствуют заданному шаблону запроса; семантические типы n-грамм, наблюдаемых среди поисковых запросов, которые соответствуют заданному шаблону запроса; идентификаторы (id) n-грамм, используемые для сопоставления префикса/суффикса; и т.д.

[0034] В различных реализациях, агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, может включать агрегированные данные, представляющие пост-поисковые действия, описанные выше, как сохраненные в журнале 120 поиска в ассоциации с каждым поисковым запросом. Например, агрегированная статистика пост-поисковых действий может включать в себя: так называемую статистику позиций клика (например, пользователи отмечали кликом веб-результат, предложение запроса, результат контакта?), наблюдаемую после того, как пользователи направляют поисковые запросы, которые соответствуют данному шаблону запроса; частоту отказа (без отметки кликами) пользователей после направления поисковых запросов, которые соответствуют заданному шаблону запроса; среднее число результатов, извлеченных по поисковым запросам, которые соответствуют заданному шаблону запроса; и т.д.

[0035] На фиг. 2 показан пример того, как различные компоненты системы 104 хранения документов и/или системы 106 электронной почты и, в частности, как разные (обычно, но необязательно, программные) компоненты механизма 126 анализа запросов могут анализировать журнал 120 поиска поисковых запросов, чтобы генерировать один или несколько шаблонов запросов и ассоциированную агрегированную статистику поисковых действий. На фиг. 2 также показаны некоторые примеры того, как можно использовать сгенерированные шаблоны запросов и соответствующую статистику.

[0036] Начиная сверху, множество поисковых запросов из журнала 120 поиска, {SQ1, SQ2, …, SQM}, может быть предоставлено и/или получено механизмом 240 конфиденциальности. Механизм 240 конфиденциальности может идентифицировать, например, множество не-частных n-грамм, {N1, N2, …, NN}, содержащихся в частных поисковых запросах, которые удовлетворяют критерию конфиденциальности. Например, в некоторых реализациях, только n-граммы, которые удовлетворяют порогам частоты, например, присутствуют в поисковых запросах, направляемых по меньшей мере x уникальными пользователями ежедневно, в поисковых запросах, направляемых по меньшей мере y уникальными пользователями еженедельно, и т.д., могут рассматриваться как не-частные n-граммы. Как отмечено выше, не-частные n-граммы могут быть организованы в некоторых реализациях как гистограмма не-частных n-грамм и соответствующих частот.

[0037] В различных реализациях, механизм 240 конфиденциальности может использовать другие методы, чтобы идентифицировать множество не-частных n-грамм. Например, в некоторых реализациях, модуль 240 конфиденциальности может анализировать n-грамму по множеству поисковых запросов, в которых появляется n-грамма, например, в соответствии со стандартом интернационализации, таким как i18n, для определения распределений родных языков по поисковым запросам. Эти распределения затем могут быть использованы для определения того, квалифицируется ли n-грамма как не-частная. Другие реализации механизма конфиденциальности могут применять разнообразные методы разбиения на лексемы, лексического анализа, нормализации и/или морфологического поиска. Например, слова и фразы, содержащиеся в поисковых запросах, могут подвергаться разбиению, а затем дальнейшей обработке, которая может включать в себя, например, синтаксический анализ, глубинный анализ текста и т.д.

[0038] Множество поисковых запросов, {SQ1, SQ2, …, SQM}, также может быть предоставлено или получено механизмом 242 генерации шаблона запроса. Механизм 242 генерации шаблона запроса может использовать множество не-частных n-грамм, идентифицированных механизмом 240 конфиденциальности, {N1, N2, …, NN}, чтобы генерировать, из множества поисковых запросов, множество P шаблонов запросов, {QP1, QP2, …, QPp}. Механизм 242 генерации шаблона запроса может использовать различные методы, чтобы идентифицировать шаблоны запросов. В некоторых реализациях, поисковые запросы могут быть сгруппированы в шаблоны запросов по общим префиксам, суффиксам и/или инфиксам. Например, поисковые запросы ʺresume Bob Smithʺ, ʺresume Jane Doeʺ и ʺResume Arnoldʺ все могут совместно использовать префикс ʺresumeʺ и, таким образом, соответствовать шаблону ʺresume [A-z]+ʺ. В некоторых реализациях, поисковые запросы могут сопоставляться на основе семантики в дополнение или вместо синтаксиса. Предположим, что в журнале поиска сохранен четвертый поисковый запрос ʺCV Allison Jonesʺ. Хотя ʺCVʺ синтаксически отличается от ʺresumeʺ, слова имеют сходные значения. Соответственно, может быть сформирован более надежный шаблон запроса для захвата всех четырех поисковых запросов, таких как "(resume|CV)[A-z]+".

[0039] В некоторых реализациях, механизм 242 генерации шаблона запроса может идентифицировать шаблоны запроса следующим образом. Может быть сделана попытка сопоставить заданный поисковый запрос, Q, с каждой не-частной n-граммой, Ni, из множества не-частных n-грамм, {N1, N2, …, Nn}, которая идентифицирована механизмом 240 конфиденциальности. Может быть определено, соответствует ли какая-либо из ʺN *ʺ, ʺ* Nʺ и/или ʺN * Nʺ запросу Q (где ʺ*ʺ является специальным символом). Если ни один из трех вариантов не соответствует Q, то Q может сравниваться со следующей не-частной n-граммой, Ni+1. Если один или несколько из трех вариантов соответствуют Q, то механизм 242 генерации шаблона запроса может сохранить комбинацию 'вариант/Q' в качестве шаблона и перейти к следующей не-частной n-грамме, Ni+1. Путем сравнения Q со всеми идентифицированными не-частными n-граммами, механизм 242 генерации шаблона запроса может идентифицировать самую длинную n-грамму, которая может быть создана с использованием Q и не-частной n-граммы. Например, предположим, что механизм 240 конфиденциальности идентифицирует следующие две не-частные n-граммы: ʺCVʺ и ʺCV DRAFTʺ. Механизм 242 генерации шаблона запроса может, в конечном счете, идентифицировать шаблон ʺCV DRAFT *ʺ по сравнению с ʺCV *ʺ, поскольку первый длиннее.

[0040] В некоторых реализациях, механизм 242 генерации шаблона запроса может включать семантическую информацию в шаблоны запроса, которые он генерирует. Например, семантическая информация может быть извлечена из частных n-грамм посредством механизма 242 генерации шаблона запроса, например, прежде чем частные n-граммы будут отброшены. Эта извлеченная семантическая информация может использоваться для формулировки более тонко настраиваемых специальных символов, например, специальных символов с ассоциированными семантическими типами. К примеру, и с использованием приведенного выше примера, шаблон запроса ʺ(resume|CV) <contact_name>ʺ может быть сгенерирован механизмом 242 генерации шаблона запроса, если будет обнаружено, что частные n-граммы, которые идентифицируют интересующую личность во множестве поисковых запросах, связанных с 'resume/CV', представляют собой контакты (например, контакты электронной почты) пользователей, которые направили поисковые запросы.

[0041] Выход механизма 242 генерации шаблона запроса, который может быть множеством P шаблонов запросов или {QP1, QP2, …, QPp}, может быть предоставлен на механизм 244 статистики шаблонов запросов, вместе с поисковыми запросами и пост-поисковыми действиями, сохраненными в журнале 120 поиска, {<SQ1, PSA1>, <SQ2, PSA2>, …, <SQM, PSAM>}. Механизм 244 генерации статистики шаблонов запросов может определять агрегированную статистику поисковых действий, ассоциированную с поисковыми запросами, которые соответствуют заданному шаблону QP запроса. Эта агрегированная статистика может включать в себя агрегированную статистику пост-поисковых действий и другую агрегированную статистику поисковых действий, которые были описаны выше.

[0042] Выход механизма 244 статистики шаблонов запросов может представлять собой шаблоны запросов и соответствующую агрегированную статистику поисковых действий, {<QP1, ASAS1>, <QP2, ASAS2>, …, <QPp, ASASP>}. Эти данные могут быть сохранены в индексе 246 (который может быть частью журнала 120 поиска), так что они являются доступными для различных компонентов ниже по потоку, включая, но без ограничения указанным, механизм 122 представления, механизм 124 ранжирования и/или механизм 248 производительности запросов. Эти компоненты могут использовать данные различными способами. Например, один или несколько из механизма 122 представления, механизма 124 ранжирования и/или механизма 248 производительности запросов могут анализировать данные в реальном времени в ответ на получение запроса или в другое время (например, периодически), чтобы изменять методологию для генерации данных, которые представляются в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, на основе агрегированной статистики поисковых действий, ассоциированной с заданным шаблоном запроса.

[0043] В различных реализациях, агрегированная статистика поисковых данных, ассоциированная с заданным шаблоном запроса и сохраненная в индексе 246, может включать в себя так называемую статистику ʺпозиции кликаʺ. Статистика позиции клика может относиться к статистике того, что пользователи отметили кликом или иным образом выбрали (например, монитор считывания сетчатки глаза может определять выбор на основе того, куда пользователь смотрит) после направления поисковых запросов, которые соответствуют заданному шаблону запроса. Пользователи могут отметить кликом конкретный результат поиска в списке результатов поиска (например, первая позиция, вторая, десятая и т.д.). Они могут отметить кликом рекламу, возвращенную в дополнение к результатам поиска (например, перед результатами поиска или сбоку от них). Пользователи могут отметить кликом так называемые ʺинформационные результатыʺ, которые могут содержать чистую информацию, в дополнение к гиперссылке или вместо нее. Например, пользователю, который направляет поисковый запрос ʺRonald Reaganʺ, может быть представлена, наряду с обычными результатами поиска, выдержка, которая в краткой форме описывает бывшего президента.

[0044] В зависимости от контекста, статистика позиции клика также может относиться к другим элементам, которые пользователи могут отметить кликом после представления результатов поиска. Пользователю, который направляет поисковый запрос 108 в систему электронной почты 106 на фиг.1, при поиске конкретного электронного письма, могут быть представлены, например, в дополнение к списку электронных писем, которые соответствуют поисковому запросу, другие элементы, которые пользователь может отметить кликом, такие как контакты электронной почты, ассоциированные с электронными письмами результата поиска, и/или контакты электронной почты людей, отправлявших/получавших электронные письма к/от пользователя, которые соответствуют поисковому запросу. Пользователю, который направляет поисковый запрос 108 в систему 104 хранения документов согласно фиг.1, при поиске конкретного документа, могут быть представлены, например, в дополнение к списку документов, которые соответствуют поисковому запросу, другие элементы, которые могут быть отмечены кликом, такие как проекты, к которым принадлежат документы, контакты сотрудников, которые создали/отредактировали/ ʺсобственныеʺ документы, организации, к которым принадлежат документы, и т.д. Пользователи могут отметить кликом или иным образом выбрать эти различные компоненты, чтобы сгенерировать статистику позиции клика.

[0045] В различных реализациях, механизм 122 представления или другой компонент ниже по потоку может анализировать статистику позиции клика, чтобы изменить методологию, используемую для предоставления различной информации пользователю, направляющему поисковый запрос, который соответствует шаблону запроса. Например, компоненты, расположенные в позиции кликов, для которых достигаются относительно высокие частоты кликов, могут выделяться, и/или их выделение может отменяться, в зависимости от обстоятельств. Предположим, что в поисковых запросах 108, направленных в систему 106 электронной почты, которые соответствуют конкретному шаблону запроса, шестьдесят процентов приводит к тому, что пользователь отмечает кликом контакт электронной почты. Механизм 122B представления может учитывать это при получении будущих поисковых запросов, которые соответствуют тому же самому шаблону запроса, например, путем более заметного представления контактов электронной почты (или менее заметного, если желательно, чтобы пользователи реже отмечали кликом контакты электронной почты).

[0046] В дополнение к статистике позиции клика или вместо нее, в различных реализациях, механизм 122 представления или другой компонент может анализировать частоту кликов, ассоциированную с заданным шаблоном запроса, чтобы определить, как он будет представлять результаты для поисковых запросов, которые соответствуют заданному шаблону. Предположим, что конкретный шаблон запроса имеет очень низкую частоту кликов, что может совпадать с высокой частотой отказа и/или считаться ʺнизкопроизводительнымʺ шаблоном запроса. Это может означать, что поисковые запросы, соответствующие данному шаблону запроса, являются некорректными, например, потому что они содержат обычную орфографическую ошибку. Механизм 122 представления или другой компонент может учитывать это при получении будущих поисковых запросов, которые соответствуют тому же самому шаблону запроса, например, путем представления предложений запроса (например, в виде выпадающего меню на панели поиска или в виде отдельных результатов поиска), ассоциированных с ʺболее высокопроизводительнымиʺ шаблонами запросов. Например, предположим, что низкопроизводительный шаблон запроса похож на более высокопроизводительный шаблон запроса (например, одна n-грамма изменена). Когда получен поисковый запрос, который соответствует низкопроизводительному шаблону запроса, поисковый запрос может использоваться в сочетании с более высокопроизводительным шаблоном запроса, чтобы предлагать пользователю предложение запроса. Это предложение запроса может исправить орфографическую ошибку в исходном поисковом запросе.

[0047] Этот метод может иметь преимущество перед традиционными методами исправления орфографии в случаях, когда поисковые запросы содержат некорректно напечатанные термины или фразы, которые, тем не менее, содержатся в словарях, обычно используемых программным обеспечением для исправления орфографии. Например, предположим, что пользователь намеревался искать фразу ʺno replyʺ (без ответа), но случайно отправил поисковый запрос ʺno replayʺ (без повтора). Обычное программное обеспечение для исправления орфографии может пропустить эту ошибку, потому что ʺno replyʺ и ʺno replayʺ могут включать в себя n-граммы, которые содержатся в словаре исправления орфографии. Однако методы, предложенные здесь, могут показать, что поисковые запросы, направленные в систему 106 электронной почты, которые содержат фразу ʺno replayʺ, имеют очень низкую производительность, а поисковые запросы, содержащие термин ʺno replyʺ, имеют очень высокую производительность. В этом случае, устройство 122 представления или другой компонент может представить пользователю, например, в качестве предлагаемого исправления орфографии, ʺno replyʺ.

[0048] В некоторых реализациях, механизм 122 представления может учитывать атрибуты элементов пользовательского интерфейса, которые представляются пользователю в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, а также то, как пользователи стремятся взаимодействовать с этими элементами. Например, информационные результаты, подобные описанным выше по поводу Рональда Рейгана, могут быть представлены пользователю в отдельном или выделенном элементе пользовательского интерфейса, таком как выделенная область веб-страницы результата поиска или во всплывающем окне. Если пользователи, направляющие поисковые запросы, которые соответствуют заданному шаблону запроса, имеют тенденцию отмечать кликом конкретный элемент пользовательского интерфейса после отправки запроса, этот элемент пользовательского интерфейса может быть представлен более заметно (например, ʺвыделеннымʺ) в будущем или по меньшей мере может продолжать представляться. С другой стороны, если пользователи не склонны отмечать кликом элемент пользовательского интерфейса, то он может быть представлен менее заметно (например, в другой форме) или вообще не представлен. Или, если желательно, чтобы пользователи отмечали кликом относительно неиспользуемый элемент пользовательского интерфейса более часто, то этот элемент пользовательского интерфейса может выделяться или иным образом визуализироваться более заметно, чтобы привлечь дополнительные клики.

[0049] Дополнительно или вместо механизма 122 представления, другие компоненты могут использовать данные, сохраненные в индексе 246, чтобы изменить способ их представления пользователям. Например, предположим, что агрегированная статистика поисковых действий, ассоциированная с заданным шаблоном запроса, предполагает, что пользователи с большей вероятностью отмечают кликом самые недавние, а не самые релевантные результаты поиска, возвращаемые из поисков, которые соответствуют шаблону. В таком случае, механизм 124 ранжирования может взвешивать меру ʺсвежестиʺ результатов поиска, которые отвечают на поисковый запрос, в большей степени при ранжировании результатов поиска, чем это могло бы быть в противном случае. Механизм 124 ранжирования может, в различных реализациях, обеспечивать данные, указывающие ранжирование, на механизм 122 представления, так что механизм 122 представления может генерировать данные, которые в конечном счете представляются пользователю клиентского устройства 102.

[0050] В качестве другого примера, механизм 248 производительности запросов может использоваться для анализа шаблонов запросов и ассоциированной агрегированной статистики поисковых действий, в частности, частоты кликов, частоты отказов, позиций кликов и т.д. для различных целей, связанных с производительностью. Производительность шаблонов запросов может оцениваться на основе различных мер, включая, но без ограничения, частоту кликов, средний обратный ранг (ʺMRRʺ), частоту отказа и т.д. Эти меры могут быть использованы для различных целей.

[0051] Предположим, что экспериментальный алгоритм реализован, например, в системе 104 хранения документов или системе 106 электронной почты, чтобы обслуживать определенное подмножество пользователей (например, пользователей, имеющих произвольно выбранные IP-адреса, пользователей в определенном регионе, бета-пользователей (пользователей бета-версии) и т.д.) результатами поиска. Предположим далее, что другие, ʺконтрольныеʺ пользователи продолжают получать результаты поиска с использованием унаследованного алгоритма. Чтобы сравнить экспериментальный алгоритм с унаследованным алгоритмом, пост-поисковые действия, ассоциированные с поисковыми запросами, направленными подмножеством пользователей, могут быть проанализированы с использованием предложенных методов, чтобы идентифицировать шаблоны запросов и соответствующую агрегированную статистику пост-поисковых действий. Затем эта агрегированная статистика пост-поисковых действий может сравниваться, например, с помощью механизма 248 производительности запросов, чтобы агрегировать статистику пост-поисковых действий, ассоциированную с шаблонами запросов, сгенерированными для унаследованного алгоритма, чтобы определить, как изменились пост-поисковые действия между ними. Если конкретный шаблон запроса является высокопроизводительным для унаследованного алгоритма, но низкопроизводительным для экспериментального алгоритма, это может указывать на то, что экспериментальный алгоритм имеет одну или несколько проблем, такую как баги (дефекты).

[0052] Механизм 248 производительности запросов может также анализировать шаблоны запросов для других целей. В некоторых реализациях, механизм 248 производительности запросов может организовывать статистику действий запросов, ассоциированную с поисковыми запросами, которые соответствуют заданному шаблону запроса, в группы на основе различных атрибутов, таких как время года, время суток, предмет/темы и так далее. Например, всплеск количества запросов, относящихся к налогам, вероятно, будет в течение налогового периода. Это может наблюдаться и/или документироваться (например, в индексе 246) механизмом 248 производительности запросов. Другие компоненты, такие как механизм 122 представления или механизм 124 ранжирования, могут затем использовать эти наблюдения для ранжирования или иного представления результатов поиска и/или иных данных/элементов пользовательского интерфейса пользователям иным образом во время налогового периода, чем за пределами налогового периода.

[0053] В других реализациях, механизм 248 производительности запросов может контролировать изменения в агрегированной статистике пост-поисковых действий, ассоциированной с шаблонами запросов, с течением времени. Если возникают внезапные и/или сильные изменения в отношении того, как пользователи взаимодействуют с интерфейсами, представляемыми в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, механизм 248 производительности запросов может принимать различные меры, такие как автоматическое уведомление соответствующего административного персонала (например, администраторов системы 104 хранения документов или системы 106 электронной почты).

[0054] На фиг. 3 изображен примерный способ 300 генерирования шаблонов запросов из поисковых запросов в журналах поиска. Для удобства, операции блок-схемы последовательности действий описаны со ссылкой на систему, которая выполняет эти операции. Эта система может включать в себя различные компоненты различных компьютерных систем. Более того, хотя операции способа 300 показаны в конкретном порядке, это не подразумевается в качестве ограничения. Одна или несколько операций могут быть переупорядочены, опущены или добавлены.

[0055] На этапе 302, система может идентифицировать не-частное содержимое, содержащееся в поисковых запросах, которые сохранены в журнале поисковых запросов, как описано выше в отношении механизма 240 конфиденциальности, показанного на фиг. 2. Например, критерий конфиденциальности может быть удовлетворен содержимым, таким как n-граммы, которые встречаются в журнале поиска с частотой, которая удовлетворяет порогу частоты, или содержимым, таким как n-граммы, которые встречаются в журнале поиска по меньшей мере минимальное число раз. Хотя n-граммы используются здесь для описания различных примеров, это не подразумевается в качестве ограничения. В различных реализациях, содержимое может быть сгруппировано и/или синтаксически проанализировано в другие типы элементов или лексем.

[0056] В блоке 304, система может генерировать на основе не-частного содержимого, идентифицированного в блоке 302, множество шаблонов запросов (например, {QP1, QP2, …, QPN}, описанных выше и изображенных на фиг. 2). Например, не-частный контент может сравниваться с каждым поисковым запросом. Любое содержимое поискового запроса, которое не соответствует никакому не-частному содержимому, идентифицированному в блоке 302, может быть проигнорировано или отброшено, например, потому что оно может считаться частным. Другие примеры того, как шаблоны запросов могут быть идентифицированы, были описаны выше в отношении механизма 242 генерации шаблона запроса и фиг. 2.

[0057] В блоке 306, система может определять, например, из журнала 120 поиска, агрегированную статистику поисковых действий, ассоциированную с каждым из множества шаблонов запросов, которые были сгенерированы в блоке 304. Как отмечено выше, это может включать в себя такие компоненты, как механизм 244 статистики шаблонов запросов, изображенный на фиг. 2, идентифицирующий общую агрегированную статистику поисковых действий из поисковых запросов, которые соответствуют шаблону запроса, такую как количество соответствующих поисковых запросов, количество уникальных соответствующих поисковых запросов, временные рамки, когда соответствующие поисковые запросы направляются наиболее часто (или направляются не типично), и т.д. Это может также включать в себя такие компоненты, как механизм 244 статистики шаблонов запросов, идентифицирующий агрегированную статистику пост-поисковых действий из пост-поисковых действий, ассоциированных с поисковыми запросами, которые соответствуют заданному шаблону запроса, такую как частота кликов, позиция клика, элементы пользовательского интерфейса, которые представляются/с которыми взаимодействуют, частота отказа, MRR и т.д.

[0058] В блоке 308, система может определять, что агрегированная статистика поисковых действий (например, {ASAS1, ASAS2, …, ASASP} на фиг. 2), ассоциированная с заданным шаблоном запроса, удовлетворяет критерию производительности. Например, механизм 122 представления может определить, например, в ответ на получение поискового запроса, что шаблон запроса, который соответствует полученному поисковому запросу, ассоциирован с агрегированной статистикой поисковых действий, которая удовлетворяет порогу отказа. Порог отказа может быть удовлетворен, например, частотой кликов, которая ниже определенного процента, например (но без ограничения этим) ниже десяти процентов, ниже пяти процентов и т.д. В качестве другого примера, механизм 248 производительности запросов может определить, что для экспериментального поискового алгоритма, который используется для предоставления результатов поиска пользователям бета-версии, конкретный шаблон запроса испытывает значительное изменение в производительности.

[0059] В ответ на определение в блоке 308, система может изменять, в блоке 310, методологию для генерации данных (например, данных HTML для веб-страницы результатов поиска, данных, которые должны быть представлены в клиенте 114 электронной почты или клиенте 116 документов), которые представляются в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса. Это изменение может быть сделано, основываясь, по меньшей мере частично, на агрегированной статистике поисковых действий, ассоциированной с заданным шаблоном запроса. Например, предположим, что в блоке 308 определено, что пользователи отмечают кликом конкретный элемент пользовательского интерфейса, предоставляемый в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, с конкретной частотой, которая удовлетворяет порогу (например, некоторому минимальному проценту). В ответ, система может изменить методологию, которую она использует, чтобы представлять элемент пользовательского интерфейса, например, путем представления его более заметно, выделяя его или даже представляя его совершенно новым способом (например, как всплывающее окно). Аналогично, если элемент пользовательского интерфейса отмечается кликом реже, чем минимальное пороговое число раз, то он может представляться менее заметно или даже больше не представляться.

[0060] На фиг. 4 показана блок-схема примерной компьютерной системы 410. Компьютерная система 410 типичным образом включает в себя по меньшей мере один процессор 414, который осуществляет связь с рядом периферийных устройств через подсистему 412 шины. Эти периферийные устройства могут включать в себя подсистему 424 хранения, включая, например, подсистему 425 памяти и подсистему 426 хранения файлов, устройства 420 вывода пользовательского интерфейса, устройства 422 ввода пользовательского интерфейса и подсистему 416 сетевого интерфейса. Устройства ввода и вывода позволяют пользователю взаимодействовать с компьютерной системой 410. Подсистема 416 сетевого интерфейса обеспечивает интерфейс с внешними сетями и связана с соответствующими интерфейсными устройствами в других компьютерных системах.

[0061] Устройства 422 ввода пользовательского интерфейса могут включать в себя клавиатуру, координатно-указательные устройства, такие как мышь, трекбол, тачпад или графический планшет, сканер, сенсорный экран, встроенный в дисплей, устройства аудио ввода, такие как системы распознавания голоса, микрофоны и/или другие типы устройств ввода. В общем, использование термина ʺустройство вводаʺ предназначено для включения всех возможных типов устройств и способов ввода информации в компьютерную систему 410 или в сеть связи.

[0062] Устройства 420 вывода пользовательского интерфейса могут включать в себя подсистему отображения, принтер, факсимильный аппарат или невизуальные дисплеи, такие как устройства аудио вывода. Подсистема отображения может включать в себя электронно-лучевую трубку (CRT), устройство с плоским экраном, такое как жидкокристаллический дисплей (LCD), проекционное устройство или некоторый другой механизм для создания видимого изображения. Подсистема отображения может также обеспечивать не-визуальное отображение, например, посредством устройств аудио вывода. В общем, использование термина ʺустройство выводаʺ предназначено для включения всех возможных типов устройств и способов вывода информации из компьютерной системы 410 пользователю или на другую машину или компьютерную систему.

[0063] Подсистема 424 хранения хранит логические структуры программирования и данных, которые обеспечивают функциональность некоторых или всех модулей, описанных здесь. Например, подсистема 424 хранения может включать в себя логику для выполнения выбранных аспектов способа 300 и/или для реализации одного или нескольких из механизма 122 представления, механизма 124 ранжирования, одного или нескольких компонентов механизма 126 анализа запроса (например, 240, 242, 244, 246, 248), механизма 128 индексирования документа и/или механизма 132 индексирования электронной почты.

[0064] Эти программные модули обычно исполняются процессором 414 отдельно или в комбинации с другими процессорами. Память 425, используемая в подсистеме 424 хранения, может включать в себя несколько блоков памяти, включая основную память 430 с произвольным доступом (RAM) для хранения инструкций и данных во время исполнения программы и постоянную память 432 (ROM), в которой хранятся фиксированные инструкции. Подсистема 426 хранения файлов может обеспечивать постоянное хранилище для файлов программ и данных и может включать в себя дисковод жесткого диска, дисковод гибкого диска вместе с ассоциированными съемными носителями, дисковод CD-ROM, оптический накопитель или картриджи съемных носителей. Модули, реализующие функциональность определенных реализаций, могут быть сохранены подсистемой 426 хранения файлов в подсистеме 424 хранения или на других машинах, доступ к которым может (могут) осуществлять процессор(ы) 414.

[0065] Подсистема 412 шины обеспечивает механизм, позволяющий различным компонентам и подсистемам компьютерной системы 410 взаимодействовать друг с другом в соответствии с назначением. Хотя подсистема 412 шины схематично показана как одна шина, альтернативные реализации подсистемы шины могут использовать несколько шин.

[0066] Компьютерная система 410 может быть различных типов, включая рабочую станцию, сервер, вычислительный кластер, блейд-сервер (тонкий серверный модуль), группу (кластер) серверов или любую другую систему обработки данных или вычислительное устройство. Ввиду постоянно меняющегося характера компьютеров и сетей, описание компьютерной системы 410, изображенной на фиг.4, предназначено только в качестве конкретного примера для иллюстрации некоторых реализаций. Возможны многие другие конфигурации компьютерной системы 410, имеющие большее или меньшее число компонентов, чем компьютерная система, изображенная на фиг. 4.

[0067] В ситуациях, когда описанные здесь системы собирают персональную информацию о пользователях или могут использовать персональную информацию, пользователям может быть предоставлена возможность контролировать то, собирают ли программы или функции пользовательскую информацию (например, информацию о социальных сетях пользователя, социальных действиях или деятельности, профессии, предпочтениях пользователя или текущем географическом местоположении пользователя), или контролировать то, следует ли принимать и/или каким образом принимать контент с сервера контента, который может быть более релевантным для пользователя. Кроме того, некоторые данные могут обрабатываться одним или несколькими способами, прежде чем они будут сохранены или использованы, так что персональная идентифицируемая информация удаляется. Например, идентичность (идентификационная информация) пользователя может быть обработана таким образом, что никакая персональная идентифицируемая информация не может быть определена для пользователя, или географическое местоположение пользователя может быть обобщено, когда получается информация о географическом местоположении (например, до уровня города, кода ZIP (почтового индекса) или штата), так что конкретное географическое местоположение пользователя не может быть определено. Таким образом, пользователь может контролировать то, каким образом информация о пользователе собирается и/или используется.

[0068] Хотя в настоящем документе описано и проиллюстрировано несколько реализаций, может использоваться множество других средств и/или структур для выполнения функции и/или получения результатов и/или одного или более преимуществ, описанных в настоящем документе, и каждый из таких вариантов и/или модификаций считается входящим в объем реализаций, описанных здесь. В более общем плане, все параметры, размерности, материалы и конфигурации, описанные здесь, рассматриваются в качестве примера, и фактические параметры, размерности, материалы и/или конфигурации будут зависеть от конкретного применения или применений, для которых используются описанные решения. Специалисты в данной области техники поймут или смогут установить, используя не более чем обычное экспериментирование, многие эквиваленты конкретных реализаций, описанных здесь. Поэтому следует понимать, что вышеприведенные реализации представлены только в качестве примера и что в пределах объема прилагаемой формулы изобретения и ее эквивалентов реализации могут быть практически осуществлены иначе, чем как конкретно описано и заявлено. Реализации настоящего раскрытия направлены на каждый индивидуальный признак, систему, изделие, материал, набор и/или способ, описанные здесь. Кроме того, любая комбинация двух или более таких признаков, систем, изделий, материалов, наборов и/или способов, если такие признаки, системы, изделия, материалы, наборы и/или способы не являются взаимоисключающими, включена в объем настоящего раскрытия.

1. Реализуемый компьютером способ анализа журнала поиска поисковых запросов, содержащий:

идентификацию, в журнале поиска частных поисковых запросов и соответствующих пост-поисковых действий, множества не-частных n-грамм, содержащихся в частных поисковых запросах, которые удовлетворяют критерию конфиденциальности;

генерирование, из журнала поиска, на основе множества не-частных n-грамм, множества шаблонов запросов;

определение, из журнала поиска, агрегированной статистики поисковых действий, ассоциированной с каждым из множества шаблонов запросов, причем агрегированная статистика поисковых действий, ассоциированная с каждым шаблоном запроса, указывает поисковые действия, ассоциированные с множеством частных поисковых запросов в журнале поиска, которые соответствуют шаблону запроса; и

в ответ на определение, что агрегированная статистика поисковых действий для заданного шаблона запроса удовлетворяет критерию производительности, ранжирование предложений запроса или результатов поиска, которые представлены в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, основываясь, по меньшей мере частично, на агрегированной статистике поисковых действий, ассоциированной с заданным шаблоном запроса.

2. Реализуемый компьютером способ по п. 1, в котором критерий конфиденциальности удовлетворяется n-граммами, которые встречаются в журнале поиска с частотой, которая удовлетворяет порогу частоты.

3. Реализуемый компьютером способ по п. 1, в котором критерий конфиденциальности удовлетворяется n-граммами, которые встречаются в журнале поиска по меньшей мере минимальное число раз.

4. Реализуемый компьютером способ по п. 1, в котором генерирование содержит генерирование гистограммы не-частных n-грамм на основе того, как часто не-частные n-граммы встречаются среди частных поисковых запросов.

5. Реализуемый компьютером способ по п. 1, в котором агрегированная статистика поисковых действий, ассоциированная с каждым из множества шаблонов запросов, включает в себя общее количество поисковых запросов в журнале поиска, которые соответствуют шаблону запроса.

6. Реализуемый компьютером способ по п. 1, в котором агрегированная статистика поисковых действий, ассоциированная с каждым из множества шаблонов запросов, включает в себя ряд различных поисковых запросов в журнале поиска, которые соответствуют шаблону запроса.

7. Реализуемый компьютером способ по п. 1, в котором агрегированная статистика поисковых действий, ассоциированная с заданным шаблоном запроса, включает в себя агрегированную статистику, относящуюся к пост-поисковым действиям, ассоциированным с множеством частных поисковых запросов в журнале поиска, которые соответствуют заданному шаблону запроса.

8. Реализуемый компьютером способ по п. 7, в котором агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, включает в себя статистику позиции клика, ассоциированную с заданным шаблоном запроса.

9. Реализуемый компьютером способ по п. 7, в котором агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, включает в себя частоту кликов, ассоциированную с заданным шаблоном запроса.

10. Реализуемый компьютером способ по п. 7, в котором агрегированная статистика пост-поисковых действий, ассоциированная с заданным шаблоном запроса, включает в себя частоту отказа, ассоциированную с заданным шаблоном запроса.

11. Реализуемый компьютером способ по п. 10, в котором критерий производительности удовлетворяется, когда частота отказа удовлетворяет минимальному порогу.

12. Система анализа журнала поиска поисковых запросов, причем система включает в себя память и один или несколько процессоров, действующих для исполнения инструкций, сохраненных в памяти, и содержит инструкции, чтобы:

идентифицировать, в журнале поиска частных поисковых запросов и соответствующих пост-поисковых действий, множество не-частных n-грамм, содержащихся в частных поисковых запросах, которые удовлетворяют критерию конфиденциальности;

генерировать, из журнала поиска, на основе множества не-частных n-грамм, множество шаблонов запросов;

определять, из журнала поиска, агрегированную статистику поисковых действий, ассоциированную с каждым из множества шаблонов запросов, причем агрегированная статистика поисковых действий, ассоциированная с каждым шаблоном запроса, указывает поисковые действия, ассоциированные с множеством частных поисковых запросов в журнале поиска, которые соответствуют шаблону запроса; и

в ответ на определение, что агрегированная статистика поисковых действий для заданного шаблона запроса удовлетворяет критерию производительности, ранжировать предложения запроса или результаты поиска, которые представлены в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, основываясь, по меньшей мере частично, на агрегированной статистике поисковых действий, ассоциированной с заданным шаблоном запроса.

13. Система по п. 12, в которой критерий конфиденциальности удовлетворяется n-граммами, которые встречаются в журнале поиска с частотой, которая удовлетворяет порогу частоты, или n-граммами, которые встречаются в журнале поиска по меньшей мере минимальное число раз.

14. Система по п. 12, в которой генерирование содержит генерирование гистограммы не-частных n-грамм на основе того, как часто не-частные n-граммы встречаются среди частных поисковых запросов.

15. Считываемый компьютером носитель, содержащий инструкции, которые, в ответ на исполнение инструкций вычислительной системой, побуждают вычислительную систему выполнять следующие операции:

идентификацию, в журнале поиска частных поисковых запросов и соответствующих пост-поисковых действий, не-частного содержимого, содержащегося в частных поисковых запросах, которое удовлетворяет критерию конфиденциальности;

генерирование, из журнала поиска, на основе не-частного содержимого, множества шаблонов запросов;

определение, из журнала поиска, агрегированной статистики поисковых действий, ассоциированной с каждым из множества шаблонов запросов, причем агрегированная статистика поисковых действий, ассоциированная с каждым шаблоном запроса, указывает поисковые действия, ассоциированные с множеством частных поисковых запросов в журнале поиска, которые соответствуют шаблону запроса; и

в ответ на определение, что агрегированная статистика поисковых действий для заданного шаблона запроса удовлетворяет критерию производительности, изменение методологии для генерирования данных, которые представляются в ответ на поисковые запросы, которые соответствуют заданному шаблону запроса, на основе агрегированной статистики поисковых действий, ассоциированной с заданным шаблоном запроса.



 

Похожие патенты:

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении изоляции хоста с потенциальной вредоносной программой алгоритма генерации доменов от инструментальных программных средств для исследования.

Изобретение относится к способам и серверу для исправления слова, неверно набранного вследствие ошибочно введенного с клавиатуры символа и/или неправильной раскладки клавиатуры.

Изобретение относится к области радиотехники. Устройство может применяться для защиты информации, обрабатываемой СВТ самостоятельно или в составе любого генератора электромагнитного шума без каких либо дополнительных согласующих устройств.

Изобретение относится к способу посадки беспилотного воздушного судна (БВС). Для посадки беспилотного воздушного судна самолетного типа на взлетно-посадочную полосу получают с помощью установленной на борту летательного аппарата фронтальной видеокамеры с узкополосным инфракрасным фильтром изображения маяков, установленных на взлетно-посадочной полосе, оценивают вероятность положения маяков с помощью вычислительного модуля, вычисляют относительную ориентацию БВС и передают ее модулю связи с инерциальной навигационной системой, который формирует команды управления полетом БВС.

Изобретение относится к области вычислительной техники. Технический результат заключается в улучшении надежности результата сопоставления имен.

Изобретение относится к способу и устройству определения состояния базы данных. Технический результат заключается в сокращении вычислительных ресурсов за счет того, что операция перехода состояния целевой БД выполняется не на всех данных БД.

Способ включает периодическое измерение с временной дискретностью Δt≤6 часов приземного атмосферного давления p(ϕi, λi, t), i∈(1, I), где: I – общее количество точек измерений на территории наблюдения за погодой, ϕi – географическая широта и λi – долгота i–й локальной точки измерения давления, t – момент измерений, дальнейшее объединение измеренных локальных данных в единое поле приповерхностных атмосферных давлений Dr(N, M, t)={p(N, M, t)}, где: N – расстояние между данными приземного атмосферного давления в градусах широты, M – расстояние между данными приземного атмосферного давления в градусах долготы.

Изобретение относится к области биометрической аутентификации. Техническим результатом является обеспечение устойчивой биометрической аутентификации на основании венозных сетей без отображения имени.

Изобретение относится к области компьютерной безопасности электронных систем транспортных средств. Технический результат заключается в предотвращении компьютерных атак на транспортное средство.

Изобретение относится к области сонификации событий кибербезопасности. Техническим результатом является повышение эффективности реагирования на возникающие события кибербезопасности в сетевых зонах за счет применения схемы сонификации событий.
Наверх