Детектор спама, выполняющий опознавательные запросы

Настоящее изобретение относится к обнаружению незапрашиваемых сообщений электронной почты посредством опознавательных запросов. Настоящее изобретение включает в себя компонент электронной почты и компонент опознавательных запросов. Компонент электронной почты может принимать сообщения электронной почты и вычислять ассоциированные вероятности того, что данные сообщения электронной почты являются спамом. Компонент опознавательных запросов посылает опознавательный запрос отправителю сообщения электронной почты, имеющего указанную вероятность больше первого полученного значения. При этом компонент опознавательных запросов корректирует вероятность того, что данное сообщение электронной почты является спамом на основании, по меньшей мере частично, ответа на опознавательный запрос. Опознавательный запрос может представлять собой встроенный код, вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа. 6 н. и 25 з.п. ф-лы, 13 ил.

 

Область изобретения

Настоящее изобретение относится, в общем, к электронной почте и, более конкретно, к системе и способу, использующим обнаружение незапрашиваемых сообщений электронной почты (спама) посредством выполнения опознавательных запросов.

Предшествующий уровень техники

Обмен электронными сообщениями, в особенности передаваемой по Интернет электронной почтой, не только приобретает стремительное распространение в общественной жизни, но также становится предпочтительным режимом обмена информацией для многих индивидуумов и организаций благодаря присущим ему неформальности, простоте использования и низкой стоимости.

К сожалению, как это уже произошло с более традиционными формами обмена информацией (например, обычной почтой сообщением и телефонной связью), получатели электронной почты все в большей степени подвергаются массовым незапрашиваемым рассылкам. При взрывном развитии Интернет-коммерции, в особенности наблюдаемом за последние несколько лет, широкое и нарастающее разнообразие представителей электронной коммерции многократно выполняет рассылку незапрашиваемых почтовых сообщений, рекламирующих их товары и услуги для постоянно расширяющегося множества получателей электронной почты. Большинство потребителей, которые заказывают некие товары или, напротив, заключают сделки с неким коммерсантом через Интернет, ожидают получения подобных коммерческих предложений и в действительности получают их. Однако распространители электронной почты постоянно расширяют свои списки рассылки с целью более глубокого проникновения в общество для охвата постоянно увеличивающегося количества получателей. Например, получатели, которые просто предоставляют свои адреса электронной почты в ответ на, возможно, безобидные появляющиеся запросы на получение информации о посетителе, формируемые различными веб-сайтами, позже, после получения незапрашиваемой почты, зачастую к своему неудовольствию обнаруживают, что они были включены в списки рассылки электронной почты. Это включение происходит таким образом, что получатели не имеют о нем никакого представления, за исключением того, что они всего лишь дали согласие на вышеупомянутый запрос. Более того, как и в случае списков прямой почтовой рассылки, распространитель электронной почты зачастую передает свой список рассылки посредством продажи, аренды или каким-либо иным способом другому подобному распространителю и далее последующим распространителям. Впоследствии получатели электронной почты со временем обнаруживают, что их почтовые ящики забиты незапрашиваемой почтой, что является результатом наличия обособленных списков рассылки, поддерживаемых широким и нарастающим множеством массовых распространителей почты. Несмотря на то, что существуют определенные средства, основывающиеся на взаимном сотрудничестве во всей индустрии прямой почтовой рассылки, посредством которых индивидуум может затребовать, чтобы его(ее) имя было удалено из большинства списков прямой почтовой рассылки, подобного механизма среди распространителей электронной почты не существует.

Как только получатель обнаруживает себя в списке рассылки электронной почты, этот индивидуум не сможет без труда, если вообще сможет, удалить его(ее) адрес из него, тем самым гарантируя, что он(она) будет на основе данного списка, а часто и на основе других списков, продолжать получать незапрашиваемую почту - зачастую в нарастающем объеме. Это происходит просто потому, что отправитель либо препятствует тому, чтобы получатель сообщения мог идентифицировать отправителя данного сообщения (например, посредством посылки почты через сервер-посредник), и, таким образом, препятствует установлению контакта между получателем и отправителем в качестве попытки добиться исключения из списка рассылки, либо просто игнорирует любые ранее полученные от получателя запросы на подобное исключение.

В течение года или за меньший срок индивидуум может запросто получать сотни незапрашиваемых почтовых сообщений. Напротив, учитывая простоту и незначительную стоимость, благодаря которым можно без труда обмениваться списками рассылки электронной почты и распространять сообщения электронной почты среди большого количества адресатов, отдельный адресат электронной почты, включенный в несколько списков рассылки, может ожидать получения гораздо большего количества незапрашиваемых сообщений за значительно меньший период времени. Более того, хотя многие незапрашиваемые сообщения электронной почты (например, предложения об услуге скидок или компьютерной поддержке, либо приглашения посетить конференции того или иного типа) являются безобидными; другие, которые включают порнографические, подстрекательские и непристойные материалы, для многих получателей могут оказаться в высшей степени оскорбительными.

Незапрашиваемые сообщения электронной почты в общем случае называют “спам”. Аналогично задаче обработки ненужных почтовых сообщений получатель электронной почты должен тщательно анализировать свою входящую почту с целью удаления спама. К сожалению, выбор, является ли данное сообщение электронной почты спамом или нет, сильно зависит от конкретного получателя и содержания сообщения - то, что для одного получателя является спамом, может не являться спамом для другого. Зачастую распространитель электронной почты готовит сообщение таким образом, чтобы его истинное содержание не было очевидным из поля темы данного сообщения, а становилось понятным только из прочтения сообщения. Следовательно, для полного удаления сообщений, относящихся к спаму, часто перед получателем стоит незавидная задача прочтения каждого из сообщений, полученных им(ей) в любой заданный день, вместо простого просмотра их полей темы. Нет необходимости говорить, что подобная фильтрация (зачастую выполняемая вручную) может оказаться трудоемкой задачей, отнимающей много времени.

В качестве попытки автоматизировать выполнение задачи обнаружения оскорбительных сообщений (так называемых “наездов”) новостных групп в рассматриваемой области техники изучают подход к классификации сообщений новостных групп посредством текстового классификатора, основывающегося на правилах. См. E.Spertus “Smokey: Automatic Recognition of Hostile Messages”, Proceedings of the Conference on Innovative Applications in Artificial Intelligence (IAAI), 1997. В этой публикации отличительные признаки семантической и синтаксической классификации текстов впервые определяют посредством прогона соответствующей совокупности текстов сообщений новостных групп через генератор дерева вероятностных решений в качестве обучающего набора. При наличии классификаций, выработанных самостоятельно для каждого из этих сообщений на предмет того, является ли оно “наездом” или нет, вышеупомянутый генератор выделяет специфические отличительные признаки текста таким образом, что если они присутствуют или отсутствуют в сообщении, то он может, как правило, предсказать, является ли данное сообщение “наездом” или нет. Далее, те отличительные признаки, которые обеспечивают корректное предсказание сущности сообщения с достаточно высокой вероятностью, отбирают для последующего использования. После этого для классификации входящего сообщения каждое предложение этого сообщения обрабатывают с целью получения на выходе многоэлементного (например, состоящего из 47 элементов) вектора отличительных признаков, каждый элемент которого просто означает наличие или отсутствие некоего отличающегося отличительного признака в этом предложении. Затем вектора отличительных признаков всех предложений рассматриваемого сообщения суммируют с целью получения на выходе вектора отличительных признаков сообщения (для всего сообщения). Затем вектор отличительных признаков сообщения оценивают посредством соответствующих правил, вырабатываемых генератором дерева решений с целью оценки, при наличии комбинации и количества отличительных признаков, которые присутствуют или отсутствуют во всем сообщении, является ли данное сообщение “наездом” или нет. В качестве примера одного из семантических отличительных признаков заявитель заметил, что фразы, содержащие слово “вы”, модифицированное посредством определенной именной группы, например “вы, люди”, “вы, типы”, “вы, скандалисты”, скорее всего являются оскорбительными. Исключением является фраза “вы, парни”, которая в употреблении редко оказывается оскорбительной. Следовательно, один из отличительных признаков состоит в том, имеется ли какая-либо из вышеперечисленных фраз. Ассоциированное правило состоит в том, что если такая фраза имеется, то предложение оскорбительно, и сообщение представляет собой “наезд”. Другим отличительным признаком является наличие слова “спасибо”, “пожалуйста” или конструкций фраз, содержащих слово “ли” (как, например, в предложении: “Не желаете ли послать мне ваш логотип по электронной почте”), но не слов “спасибо нет”. Если какая-либо из таких фраз или слов присутствует (за исключением “спасибо нет”), то ассоциированное правило, которое автор называет “правилом вежливости”, категоризирует данное сообщение как вежливое и, следовательно, не являющееся "наездом". За некоторыми исключениями правила, используемые в данном подходе, не зависят от местоположения, то есть, по большей части они используют одни и те же отличительные признаки и функционируют одним и тем же образом независимо от адресата, получающего рассылку.

В публикации W.W.Cohen, "Learning Rules that Classify E-mail", 1996 AAAI Spring Symposium on Machine Learning in Information Access, 1996 (далее называемой публикацией "Cohen") описан текстовый классификатор электронной почты, основывающийся на правилах, который в рассматриваемом случае представляет собой специальный классификатор, включающий обучаемые "правила распознавания ключевых слов". Согласно этому подходу на вход системы подают набор сообщений электронной почты, заранее классифицированных по разным категориям. Далее на основе этого набора выполняют обучение правилам с целью классификации входящих сообщений электронной почты по различным категориям. Хотя данный способ действительно включает обучающую компоненту, которая позволяет автоматически генерировать правила, эти правила просто проводят различия на уровне "да/нет" с целью классификации сообщений электронной почты по разным категориям, не предоставляя при этом какой-либо меры доверия данному предсказанию. Более того, в этой работе актуальная проблема обнаружения спама не рассмотрена. В связи с этим, для классификаторов, основывающихся на правилах, характерны серьезные недостатки, которые сильно ограничивают их практическое использование при обнаружении спама. Во-первых, существующие системы обнаружения спама для проведения различия между легальной почтой и спамом требуют от пользователей ручного конструирования соответствующих правил. Большинство получателей не станут обременять себя хлопотами по выполнению таких трудоемких задач. Как отмечалось выше, оценка того, является или нет конкретное сообщение электронной почты спамом, может быть достаточно субъективной в зависимости от его получателя. То, что является спамом для одного получателя, для другого может таковым не являться. Более того, почта, не относящаяся к спаму, значительно отличается от человека к человеку. Следовательно, для демонстрации приемлемой эффективности при фильтрации большей части спама из потока входящей почты пользователь должен сконструировать и запрограммировать набор правил классификации для основывающегося на правилах классификатора, которые точно проводят различие между тем, что относится к спаму, и тем, что к спаму не относится (легальные сообщения электронной почты). Корректное выполнение описанной процедуры может оказаться необычайно сложной и утомительной задачей, отнимающей много времени, даже для знающих пользователей компьютера с большим опытом.

Во-вторых, характеристики электронной почты, относящейся и не относящейся к спаму, могут значительно меняться со временем; основывающиеся на правилах классификаторы статичны (если, конечно, пользователь не намерен постоянно вносить изменения в правила). Соответственно, отправители, осуществляющие массовую рассылку электронной почты, регулярно модифицируют содержание своих сообщений в постоянной попытке воспрепятствовать ("перехитрить") тому, чтобы получатели изначально распознали эти сообщения как спам, а затем удалили эти сообщения, не прочтя их полностью. Таким образом, если пользователь не намерен постоянно конструировать новые правила или обновлять уже существующие правила с целью отслеживания изменений в спаме (по мере того, как данные получатели воспринимают эти изменения), то со временем основывающийся на правилах классификатор становится все более и более неточным при проведении для данного получателя различия между спамом и требующимися сообщениями электронной почты (не являющимися спамом), тем самым дополнительно уменьшая полезность классификатора и раздражая пользователя/получателя.

В качестве альтернативы, пользователь может рассмотреть использование способа для обучения правил (как это описано в публикации Cohen) на основе уже имеющегося у него спама с целью адаптации со временем к изменениям в потоке входящей электронной почты. Здесь проблемы подхода, основывающегося на правилах, выделены более четко. Правила основываются на логических выражениях; таким образом, как это отмечалось выше, правила просто проводят различие на уровне "да/нет" касаемо классификации данного сообщения электронной почты. Проблематично то, что подобные правила не предоставляют какого-либо уровня доверия предсказаниям на их основе. В силу того, что пользователи могут определить различные допуски в отношении того, насколько агрессивно они хотели бы фильтровать свою электронную почту с целью удаления спама, в таком приложении, как обнаружение спама, классификация на основе правил становится весьма проблематичной. Например, консервативный пользователь может потребовать, чтобы система была в высшей степени уверена в том, что сообщение является спамом, прежде, чем удалить его, в то время как другой пользователь может оказаться не столь предусмотрительным. Без труда подобные изменяющиеся степени предусмотрительности пользователей встроить в основывающуюся на правилах систему, подобную описанной в публикации Cohen, невозможно.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Ниже следует краткое содержание настоящего изобретения, представленное в упрощенном виде с целью обеспечения базового понимания некоторых аспектов настоящего изобретения. Это краткое содержание не является всесторонним обзором настоящего изобретения. При этом не подразумевается, что оно идентифицирует ключевые/критические элементы настоящего изобретения или охватывает предметную область настоящего изобретения. Единственной его целью является представление в упрощенном виде некоторых концепций настоящего изобретения в качестве прелюдии к более подробному описанию, которое представлено ниже.

В настоящем изобретении предлагается система, предназначенная для обнаружения незапрашиваемых сообщений (например, электронной почты). Данная система включает в себя компонент электронной почты и компонент опознавательных запросов. Система может получать сообщения и ассоциированные вероятности того, что данные сообщения являются спамом. На основе, по меньшей мере частично, ассоциированной вероятности, рассматриваемая система может послать опознавательный запрос отправителю сообщения. Компонент электронной почты может сохранять сообщения и ассоциированные вероятности того, что эти сообщения являются спамом. В одном из примеров на основе ассоциированных вероятностей того, что сообщения являются спамом, сообщения электронной почты сохраняют с отличающимися атрибутами, такими как имя папки. В другом примере сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные первому пороговому значению, сохраняют в папке для легальной электронной почты, в то время как сообщения электронной почты, имеющие ассоциированные вероятности, большие первого порогового значения, сохраняют в папке для спама. В еще одном варианте реализации настоящего изобретения сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные первому пороговому значению, сохраняют в папке для легальной электронной почты; сообщения электронной почты, имеющие ассоциированные вероятности, большие первого порогового значения, но меньшие второго порогового значения, сохраняют в папке для сообщений с подозрением на спам. Те же сообщения электронной почты, которые имеют ассоциированные вероятности, большие второго порогового значения, сохраняют в папке для спама. Необходимо заметить, что первое пороговое значение и/или второе пороговое значение могут быть фиксированными на основе предпочтений пользователя и/или адаптивными (например, на основе, по меньшей мере частично, доступных вычислительных ресурсов).

Следует заметить, что отличные от вероятностей числа, такие как рейтинги, вычисляемые вспомогательной векторной вычислительной машиной, нейронной сетью и т.д., могут служить для тех же самых целей, что и вероятности - в общем случае, в соответствии с одним из аспектов настоящего изобретения числовые выходные данные любого алгоритма обучения машины можно использовать вместо вероятности. Аналогично, некоторые алгоритмы обучения машины, подобные деревьям решений, выдают информацию о категориях, и ее тоже можно использовать вместо комбинации вероятности и порогового значения. Компонент опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения. Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде (например, буквенно-цифровом коде). При ответе на такой опознавательный запрос отправитель электронной почты может ответить посредством этого кода. В одном из примеров систему отправителя можно адаптировать для автоматического извлечения встроенного кода и ответа на опознавательный запрос. В качестве альтернативы и/или дополнения, отправитель может получить приглашение для ответа на опознавательный запрос (например, вручную). Использование опознавательного запроса, основывающегося на встроенном коде, может увеличить сетевую и/или вычислительную нагрузку в системе отправителя спама, тем самым выполняя функции сдерживания от рассылки спама. Необходимо заметить, что опознавательный запрос может быть любым из множества подходящих типов (например, вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа). Опознавательный запрос может быть фиксированным и/или переменным. Например, при высокой ассоциированной вероятности компонент опознавательных запросов может послать более сложный опознавательный запрос или опознавательный запрос, требующий большего микроплатежа.

Компонент опознавательных запросов может скорректировать ассоциированную вероятность того, что сообщение электронной почты является спамом на основе, по меньшей мере частично, ответа на опознавательный запрос. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент опознавательных запросов может уменьшить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. В одном из примеров сообщение электронной почты перемещают из папки для спама в папку для легальной электронной почты. В другом варианте реализации сообщение электронной почты перемещают из папки для сообщений с подозрением на спам в папку для легальной электронной почты. После получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент опознавательных запросов может увеличить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. Например, сообщение электронной почты могут переместить из папки для сообщений с подозрением на спам в папку для спама.

Согласно другому аспекту настоящего изобретения предоставляется система, которая дополнительно включает в себя классификатор почты. Классификатор почты получает сообщение электронной почты, определяет ассоциированную вероятность того, что данное сообщение электронной почты является спамом, и сохраняет сообщения электронной почты и ассоциированные вероятности в компоненте электронной почты. Соответственно, классификатор почты анализирует содержание сообщения для заданного получателя, на основе данного содержания для данного получателя проводит различие между спамом и легальными сообщениями (не являющимися спамом) и таким образом классифицирует каждое входящее сообщение для данного получателя.

В качестве дополнения и/или альтернативы сообщение электронной почты можно пометить с помощью индикатора правдоподобия (вероятности) того, что данное сообщение является спамом; сообщения, которым назначены промежуточные вероятности того, что они - спам, можно переместить в папку для сообщений с подозрением на спам на основе упомянутого правдоподобия. На основе, по меньшей мере частично, информации, предоставляемой классификатором почты, компонент опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения.

Согласно еще одному аспекту настоящего изобретения обеспечивается система, дополнительно включающая в себя папку(и) для спама и папку(и) для легальной электронной почты. Классификатор электронной почты определяет ассоциированную вероятность того, что сообщение электронной почты является спамом, и сохраняет данное сообщение электронной почты в папке(ах) для спама и папке(ах) для легальной электронной почты (например, на основе первого порогового значения). Входящие сообщения электронной почты подают на вход классификатора почты, который, в свою очередь, на основе вероятностей классифицирует каждое их этих сообщений либо как легальное, либо как спам. Сообщение направляют либо в папку(и) для спама, либо в папку(и) для легальной электронной почты на основе его классификации. После этого компонент опознавательных запросов может послать опознавательный запрос отправителю сообщения, сохраненного в папке(ах) для спама (например, имеющего ассоциированную вероятность, большую первого порогового значения). На основе, по меньшей мере частично, ответа на опознавательный запрос компонент опознавательных запросов может переместить рассматриваемое сообщение электронной почты из папки(ок) для спама в папку(и) для легальной электронной почты. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент опознавательных запросов может переместить рассматриваемое сообщение электронной почты из папки(ок) для спама в папку(и) для легальной электронной почты. Помимо этого, после получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент опознавательных запросов может удалить данное сообщение электронной почты из папки(ок) для спама и/или изменить атрибут(ы) сообщения электронной почты, хранящегося в папке(ах) для спама.

Согласно другому аспекту настоящего изобретения, предлагается система, дополнительно включающая в себя каталог (хранилище) отправителей легальной электронной почты и каталог (хранилище) отправителей спама. В каталоге отправителей легальной электронной почты хранится информация (например, адреса электронной почты), ассоциированная с отправителями легальной электронной почты. На сообщения электронной почты от отправителей, идентифицируемых в каталоге отправителей легальной электронной почты, компонент опознавательных запросов в общем случае опознавательных запросов не выдает. Информацию (например, адреса электронной почты) можно сохранять в каталоге (хранилище) отправителей легальной электронной почты на основе выбора пользователя (например, по команде "не посылать запрос" конкретному отправителю), адресной книги пользователя, адресов, на которые пользователь отправил, по меньшей мере, заданное количество сообщений электронной почты, и/или посредством компонента опознавательных запросов. В каталоге отправителей легальной электронной почты может дополнительно храниться уровень доверия, ассоциированный с отправителем легального сообщения электронной почты. На сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные ассоциированному уровню доверия, компонент опознавательных запросов не выдает опознавательные запросы, в то время как на сообщения электронной почты, имеющие ассоциированные вероятности, большие ассоциированного уровня доверия, компонент опознавательных запросов выдает опознавательные запросы. В каталоге (хранилище) отправителей спама хранится информация (например, адреса электронной почты), ассоциированная с отправителями спама. Сохранение информации в каталоге отправителей спама может выполнять пользователь и/или компонент опознавательных запросов.

Для выполнения вышеупомянутых и связанных с ними задач в данном документе описаны некоторые иллюстративные аспекты настоящего изобретения совместно с нижеследующим описанием и прилагающимися чертежами. Тем не менее, эти аспекты показывают лишь некоторые из множества путей, которые позволяют использовать принципы настоящего изобретения, при этом подразумевается, что настоящее изобретение включает в себя все подобные аспекты и их эквиваленты. Другие преимущества и новые отличительные признаки настоящего изобретения становятся очевидными из нижеследующего подробного описания настоящего изобретения, которое рассматривается совместно с чертежами.

ПЕРЕЧЕНЬ ФИГУР ЧЕРТЕЖЕЙ

Фиг.1 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.2 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.3 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.4 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.5 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.6 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.7 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для ответа на опознавательный запрос;

фиг.8 представляет собой блок-схему алгоритма, иллюстрирующую соответствующий одному из аспектов настоящего изобретения способ, предназначенный для обнаружения незапрашиваемой электронной почты;

фиг.9 представляет собой блок-схему алгоритма, дополнительно иллюстрирующую способ по фиг.8;

фиг.10 представляет собой блок-схему алгоритма, иллюстрирующую соответствующий одному из аспектов настоящего изобретения способ, предназначенный для ответа на опознавательный запрос;

фиг.11 представляет собой блок-схему алгоритма, иллюстрирующую соответствующий одному из аспектов настоящего изобретения способ, предназначенный для ответа на опознавательные запросы;

фиг.12 представляет собой соответствующий одному из аспектов настоящего изобретения примерный вариант пользовательского интерфейса, предназначенного для ответа на множество опознавательных запросов;

фиг.13 иллюстрирует пример операционной среды, в которой может функционировать настоящее изобретение.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Ниже приводится описание настоящего изобретения со ссылкой на чертежи, причем на протяжении всего описания для подобных элементов используют подобные же номера позиций. В нижеследующем описании в пояснительных целях изложены многочисленные специфические детали для обеспечения исчерпывающего понимания настоящего изобретения. Однако может оказаться очевидным, что настоящее изобретение можно использовать на практике без этих специфических деталей. В других примерах широко известные структуры и устройства показаны в форме блок-схем с целью содействия описанию настоящего изобретения.

Подразумевается, что используемый в данной патентной заявке термин "компьютерный компонент" относится к объекту, связанному с компьютером, будь то аппаратные средства, комбинация аппаратных средств и программного обеспечения, программное обеспечение или программное обеспечение, исполняемое в текущий момент. Например, компьютерным компонентом может быть процесс, выполняемый процессором, процессор, объект, исполняемый файл, поток исполнения, программа и/или компьютер, однако компьютерный компонент не ограничивается вышеперечисленным. В качестве иллюстрации как исполняемое на сервере приложение, так и сам сервер могут быть компьютерным компонентом. Один или несколько компьютерных компонентов могут постоянно находиться внутри процесса и/или потока исполнения, и компонент может быть локализован на одном компьютере и/или распределен между двумя или более компьютерами.

Обратимся к фиг.1, на которой изображена соответствующая одному из аспектов настоящего изобретения система 100, предназначенная для обнаружения незапрашиваемых сообщений (например, электронной почты). Система 100 включает в себя компонент 110 электронной почты и компонент 120 опознавательных запросов. Система 100 может принимать сообщения электронной почты и ассоциированные вероятности того, что данные сообщения электронной почты являются спамом. На основе, по меньшей мере частично, упомянутой ассоциированной вероятности система 100 может послать опознавательный запрос отправителю сообщения электронной почты.

Компонент 110 электронной почты принимает и/или сохраняет сообщения электронной почты, принимает и/или вычисляет ассоциированные вероятности того, что данные сообщения электронной почты являются спамом. Например, компонент 110 электронной почты может сохранять информацию на основе, по меньшей мере частично, информации, полученной от классификатора почты (не показан). В одном из примеров сообщения электронной почты сохраняют в компоненте 110 электронной почты на основе ассоциированных вероятностей того, что данные сообщения электронной почты являются спамом. В другом примере компонент 110 электронной почты принимает сообщения электронной почты и вычисляет ассоциированные вероятности того, что данные сообщения электронной почты являются спамом.

Компонент 120 опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения. Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде (например, буквенно-цифровом коде). При ответе на такой опознавательный запрос отправитель сообщения электронной почты может ответить посредством данного кода. В одном из примеров систему отправителя (не показана) можно адаптировать для автоматического извлечения встроенного кода и ответа на опознавательный запрос. В качестве альтернативы и/или дополнения отправитель может получить приглашение ответить на опознавательный запрос (например, вручную). Использование опознавательного запроса, основывающегося на встроенном коде, может увеличить сетевую и/или вычислительную нагрузку в системе отправителя спама, тем самым выполняя функции сдерживания от рассылки спама.

В качестве дополнения и/или альтернативы, опознавательный запрос может быть вычисляемым опознавательным запросом, опознавательным запросом, требующим участия человека, и/или требованием микроплатежа. Ниже такие опознавательные запросы и ответы на такие опознавательные запросы рассматриваются более подробно. Более того, опознавательный запрос может быть фиксированным и/или изменяемым. Например, при высокой ассоциированной вероятности компонент 120 опознавательных запросов может послать более сложный опознавательный запрос или опознавательный запрос, который требует большего микроплатежа.

Например, требование микроплатежа может в качестве опции использовать сертификаты спама однократного использования. Система 100 может наложить "блокировку" на полученный сертификат спама. В случае, когда пользователь системы 100 читает сообщение и помечает его как спам, сертификат спама аннулируют - отправитель не сможет в дальнейшем использовать этот сертификат спама. Если же сообщение не помечено как спам, то блокировку снимают, тем самым позволяя отправителю использовать сертификат спама повторно (например, отправитель сообщения не потратил при этом денег). В альтернативном варианте реализации сертификат спама при получении всегда аннулируют независимо от того, было ли сообщение помечено как спам или нет.

Что касается вычисляемого опознавательного запроса, то в одном из вариантов реализации отправитель опознавательного запроса (приемник сообщения) может определить, каким следует быть вычисляемому опознавательному запросу. Однако в другом варианте реализации опознавательный запрос однозначно определяют посредством некоторой комбинации содержания сообщения, времени получения или отправки сообщения, отправителя сообщения и, что важно, получателя сообщения. Например, вычисляемый опознавательный запрос может основываться на одностороннем хешировании этих величин. В случае, если отправителю вызова (приемнику сообщения) разрешено выбрать опознавательный запрос, распространитель спама может использовать следующий способ. Он подписывается на списки почтовой рассылки или, в противном случае, генерирует почту от имени пользователей. Таким образом, респонденты посылают сообщения обратно распространителю спама, на которое распространитель спама отвечает выбираемым по своему усмотрению вычисляемым опознавательным запросом. В частности, распространитель спама может выбрать опознавательные запросы, которые легальные пользователи послали распространителю спама незадолго до этого в ответ на спам. Некоторый процент получателей опознавательных запросов, посланных распространителем спама, разрешают опознавательные запросы, тем самым позволяя распространителю спама в дальнейшем отвечать на опознавательные запросы, посылаемые ему. В одном из вариантов реализации вычисляемый вызов основывается на одностороннем хешировании сообщения (включая метку времени и метку получателя), что делает определение опознавательного запроса практически невозможным для отправителя или получателя, но дает каждому из них возможность удостовериться в том, что опознавательный запрос служит своей намеченной цели.

Компонент 120 опознавательных запросов может скорректировать ассоциированную вероятность того, что сообщение электронной почты является спамом, на основе, по меньшей мере частично, ответа на опознавательный запрос. Например, после приема приемлемого (например, корректного) ответа на опознавательный запрос компонент 120 опознавательных запросов может уменьшить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. В одном из примеров сообщение электронной почты перемещают из папки для спама в папку для легальной электронной почты. В другом примере сообщение электронной почты перемещают из папки для сообщений с подозрением на спам в папку для легальной электронной почты. Помимо этого, после получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент 120 опознавательных запросов может увеличить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. В одном из вариантов реализации пользователю предлагают варианты опознавательных запросов на выбор. Например, выбор вариантов опознавательных запросов может основываться на фильтре.

Более того, вместо того, чтобы хранить сообщение электронной почты, система 100 может "отразить" сообщение, тем самым вынуждая отправителя послать сообщение повторно вместе с ответом на опознавательный запрос.

В то время как фиг.1 представляет собой блок-схему, иллюстрирующую компоненты системы 100, необходимо заметить, что компонент 120 опознавательных запросов можно реализовать в качестве одного или нескольких компьютерных компонентов в соответствии с определением данного термина в рассматриваемом документе. Таким образом, необходимо заметить, что компьютерные исполняемые компоненты, пригодные для реализации системы 100 и/или компонента 120 опознавательных запросов, можно хранить на машинно-читаемом носителе информации, который в соответствии с настоящим изобретением включает в себя специализированную интегральную схему (СИС), компакт-диск (CD), цифровой видеодиск (DVD), постоянное запоминающее устройство (ПЗУ), дискету, жесткий диск, электрически стираемое программируемое ПЗУ (ЭСППЗУ) и карту памяти Memory Stick, но не ограничивается вышеперечисленным.

Обратимся к фиг.2, на которой изображена соответствующая одному из аспектов настоящего изобретения система 200, предназначенная для обнаружения незапрашиваемой электронной почты. Система 200 включает в себя компонент 110 электронной почты, компонент 120 опознавательных запросов и классификатор 130 почты. Примерный вариант классификатора 130 почты изложен более подробно в находящейся на рассмотрении одновременно с данной патентной заявкой заявке на патент США на "A TECHNIQUE WHICH UTILIZES A PROBABILISTIC CLASSIFIER TO DETECT "JUNK" E-MAIL", которая имеет номер 09/102837 и полностью включена в данный документ в качестве ссылки. В одном из примеров классификатор 130 почты получает сообщение электронной почты, определяет ассоциированную вероятность того, что данное сообщение электронной почты является спамом, и сохраняет сообщения электронной почты и ассоциированные вероятности в компоненте 110 электронной почты. Классификатор 130 почты анализирует содержание сообщения для заданного получателя, на основе данного содержания для данного пользователя проводит различие между спамом и легальными сообщениями (не являющимися спамом) и таким образом классифицирует каждое входящее сообщение электронной почты для рассматриваемого получателя.

В другом примере каждое входящее сообщение электронной почты (в составе потока сообщений) сначала анализируют с целью оценки того, какие отличительные признаки из набора заранее заданных отличительных признаков, особенно относящиеся к характеристикам спама, содержит данное сообщение. Эти отличительные признаки (например, "набор отличительных признаков") включают в себя как отличительные признаки, основывающиеся на простых словах, и отличительные признаки, выработанные самостоятельно, причем последние включают в себя, например, специальные фразы из нескольких слов, так и различные отличительные признаки сообщений электронной почты, такие как различения, не основанные на анализе слов. Вообще говоря, эти различения, не основанные на анализе слов, в совокупности связаны, например, с определенными атрибутами форматирования, авторства, доставки и/или обмена данными которые, при наличии их в сообщении, скорее всего служат индикатором спама - они являются характеристиками спама, отражающими специфику конкретного домена. В качестве иллюстрации, атрибуты форматирования могут включать в себя такой признак, как набрано ли заранее заданное слово в тексте сообщения заглавными буквами, или содержит ли текст последовательность заранее заданных знаков препинания. В качестве иллюстрации, атрибуты доставки могут включать в себя такой признак, как содержит ли сообщение адрес одного получателя или адреса множества получателей, или время, в которое было передано данное сообщение (почта, отправленная посреди ночи, имеет большую вероятность оказаться спамом). Атрибуты авторства могут включать в себя, например, такой признак, как приходит ли сообщение с конкретного адреса электронной почты. В качестве иллюстрации, атрибуты обмена данными могут включать в себя такой признак, как содержит ли сообщение присоединенные данные (сообщение, являющееся спамом, редко имеет присоединенные данные), или было ли сообщение послано отправителем, относящимся к конкретному типу домена (большая часть спама исходит из доменов типа ".com" или ".net"). Отличительные признаки, выработанные самостоятельно, также могут включать в себя лексемы или фразы, которые известны, например, как непристойные, порнографические или оскорбительные; или определенные знаки препинания или их группы, такие как повторяющиеся восклицательные знаки или числа, которые, по всей вероятности, проявляются в спаме. Специфические отличительные признаки, выработанные самостоятельно, обычно определяют исключительно посредством заключения, делаемого человеком, либо в комбинации с эмпирическим анализом различения атрибутов сообщений, являющихся спамом.

Для каждого входящего сообщения формируют вектор отличительных признаков, каждый элемент которого соответствует определенному отличительному признаку из упомянутого набора. В этом элементе просто хранится бинарное значение, устанавливающее, присутствует ли в рассматриваемом сообщении соответствующий отличительный признак или нет. Данный вектор можно хранить в разреженном формате (например, в виде списка только положительных отличительных признаков). Содержимое данного вектора подают на вход вероятностного классификатора, предпочтительно классификатора, представляющего собой модифицированную вспомогательную векторную вычислительную машину (ВВВМ), который на основе отличительных признаков, присутствующих или отсутствующих в данном сообщении, генерирует меру вероятности того, является ли данное сообщение спамом или нет. Затем эту меру сравнивают с предварительно заданным пороговым значением. Если для какого-либо сообщения его мера ассоциированной вероятности равна пороговому значению или превышает его, то это сообщение классифицируют как спам (например, сохраняют в папке для спама). В качестве альтернативы, если мера вероятности для данного сообщения меньше порогового значения, то это сообщение классифицируют как легальное (например, сохраняют в папке для легальной почты). Результат классификации каждого сообщения можно хранить в качестве отдельного поля в составе упомянутого вектора для данного сообщения. Затем содержимое папки для легальной почты можно отобразить посредством клиентской программы для электронной почты (не показана) для того, чтобы пользователь мог проводить отбор и просмотр. Содержимое папки для спама будет отображаться посредством клиентской программы для электронной почты только при наличии специального запроса пользователя.

Более того, классификатор 130 почты можно обучать, используя набор из М сообщений электронной почты (например, “обучающий набор”, где М - целое число), каждое из которых было вручную классифицировано либо как легальное, либо как спам. В частности, каждое из этих сообщений анализируют с целью определения из относительно большого множества n возможных отличительных признаков (называемого в данном документе “пространством отличительных признаков”), включающего в себя как отличительные признаки, основывающиеся на простых словах, так и отличительные признаки, выработанные самостоятельно, именно тех N отличительных признаков (где n и N - оба целые числа и n>N), которые должны составить набор отличительных признаков, предназначенный для использования при последующей классификации. А именно, для получения уменьшенной матрицы N×M отличительных признаков размер матрицы (обычно разреженной), содержащей результаты для обучающего набора для всех n отличительных признаков, уменьшают посредством применения закона Зипфа и совместной информации, описание которых приводится ниже в необходимом объеме. Результирующие N отличительных признаков образуют набор отличительных признаков, который используют при последующей классификации. Затем эту матрицу и известные классификации для каждого сообщения из обучающего набора совместно подают на классификатор 130 почты для его обучения.

Более того, даже если получатель вручную переместит сообщение из одной папки в другую и, следовательно, повторно классифицирует его, например переведет его из разряда легальной почты в разряд спама, содержимое любой из папок или обеих папок можно снова использовать в качестве нового обучающего набора с целью проведения повторного обучения и, таким образом, обновления классификатора. Подобное повторное обучение может иметь место в результате повторной классификации каждого сообщения; автоматически после того, как была выполнена повторная классификация для определенного количества сообщений; после истечения заданного интервала пользования (например, нескольких недель или месяцев); либо после запроса пользователя. Согласно описанному способу поведения классификатора можно успешно отслеживать изменяющиеся субъективные восприятия и предпочтения его конкретного пользователя. В качестве альтернативы, сообщения электронной почты можно классифицировать по множеству категорий (подклассов) спама (например, коммерческий спам, порнографический спам и т.д.). В дополнение, сообщения можно классифицировать по категориям, соответствующим различным степеням спама ("достоверный спам", "подозрение на спам" и "не спам"). На основе, по меньшей мере частично, информации, предоставляемой классификатором 130 почты, компонент 120 опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения. Например, опознавательный запрос может основываться, по крайней мере частично, на встроенном в опознавательный запрос коде (например, буквенно-цифровом коде). При ответе на такой опознавательный запрос отправитель сообщения электронной почты может ответить посредством данного кода. Систему отправителя (не показана) можно адаптировать для автоматического извлечения встроенного кода и ответа на опознавательный запрос. В качестве альтернативы и/или дополнения отправитель может получить приглашение для ответа на опознавательный запрос (например, вручную). Использование опознавательного запроса, основывающегося на встроенном коде, может увеличить сетевую и/или вычислительную нагрузку в системе отправителя, тем самым выполняя функции сдерживания от рассылки спама. Необходимо заметить, что можно использовать любой тип опознавательного запроса (например, вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа), подходящий для реализации настоящего изобретения, при этом подразумевается, что все эти типы опознавательных запросов попадают в рамки предметной области, определяемой прилагающейся к данному документу формулой изобретения.

Компонент 120 опознавательных запросов может скорректировать ассоциированную вероятность того, что сообщение электронной почты является спамом, на основе, по меньшей мере частично, ответа на опознавательный запрос. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент 120 опознавательных запросов может уменьшить ассоциированную вероятность того, что данное сообщение электронной почты является спамом.

После получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент 120 опознавательных запросов может увеличить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. Необходимо заметить, что классификатор 130 почты может быть компьютерным компонентом в соответствии с определением данного термина в рассматриваемом документе.

Обратимся к фиг. 3, на которой изображена соответствующая одному из аспектов настоящего изобретения система 300, предназначенная для обнаружения незапрашиваемой электронной почты. Система 300 включает в себя классификатор 310 почты, компонент 320 опознавательных запросов, папку(и) 330 для спама и папку(и) 340 для легальной электронной почты. В одном из вариантов реализации папка(и) 330 для спама и/или папка(и) 340 для легальной электронной почты могут быть виртуальными, что подразумевает хранение информации, ассоциированной с сообщениями электронной почты (например, ссылки на сообщения электронной почты), вместе с сообщениями электронной почты, хранящимися где-то в другом месте. Или в другом варианте реализации вместо использования папок можно просто задать некий атрибут сообщения.

Как описано выше, классификатор 310 электронной почты определяет ассоциированную вероятность того, что сообщение электронной почты является спамом, и сохраняет данное сообщение электронной почты в папке(ах) 330 для спама или папке(ах) 340 для легальной электронной почты (например, на основе первого порогового значения). Входящие сообщения электронной почты подают на вход классификатора 310 почты, который, в свою очередь, на основе вероятностей классифицирует каждое из этих сообщений либо как легальное, либо как спам. Сообщение электронной почты направляют либо в папку(и) 330 для спама, либо в папку(и) 340 для легальной электронной почты на основе его классификации. Таким образом, сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные первому пороговому значению, сохраняют в папке(ах) 340 для легальной электронной почты, в то время как сообщения электронной почты, имеющие ассоциированные вероятности, большие первого порогового значения, сохраняют в папке(ах) 330 для спама. Первое пороговое значение может быть фиксированным на основе предпочтений пользователя и/или адаптивным (например, на основе, по меньшей мере частично, доступных вычислительных ресурсов).

После этого компонент 320 опознавательных запросов может послать опознавательный запрос отправителю сообщения, сохраненного в папке(ах) для спама (например, имеющего ассоциированную вероятность, большую первого порогового значения). Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде, вычисляемом опознавательном запросе, опознавательном запросе, требующем участия человека, и/или на требовании микроплатежа. На основе, по меньшей мере частично, ответа на опознавательный запрос компонент 320 опознавательных запросов может переместить рассматриваемое сообщение электронной почты из папки(ок) 330 для спама в папку(и) 340 для легальной электронной почты. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент 320 опознавательных запросов может переместить рассматриваемое сообщение электронной почты из папки(ок) 330 для спама в папку(и) 340 для легальной электронной почты.

После получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент 320 опознавательных запросов может удалить данное сообщение электронной почты из папки(ок) 330 для спама и/или изменить атрибут(ы) сообщения электронной почты, хранящегося в папке(ах) 330 для спама. Например, для того, чтобы привлечь внимание пользователя к возросшей вероятности того, что данное сообщение электронной почты является спамом, можно изменить атрибут(ы) отображения (например, цвет) сообщения электронной почты.

Далее на фиг.4 изображена соответствующая одному из аспектов настоящего изобретения система 400, предназначенная для обнаружения незапрашиваемой электронной почты. Система 400 включает в себя классификатор 310 почты, компонент 320 опознавательных запросов, папку(и) 330 для спама и папку(и) 340 для легальной электронной почты. Система 400 дополнительно включает в себя хранилище 350 отправителей легальной электронной почты и/или хранилище 360 отправителей спама. В хранилище 350 отправителей легальной электронной почты хранится информация (например, адреса электронной почты), ассоциированная с отправителями легальной электронной почты. На сообщения электронной почты от отправителей, идентифицируемых в хранилище 350 отправителей легальной электронной почты, компонент 320 опознавательных запросов, в общем случае, опознавательных запросов не выдает. Соответственно, если в одном из примеров отправитель сообщений электронной почты хранится в хранилище 350 отправителей легальной электронной почты, то его сообщения электронной почты, сохраненные классификатором 310 почты в папке(ах) 330 для спама, перемещают в папку(и) 340 для легальной электронной почты.

Информацию (например, адреса электронной почты) можно сохранять в хранилище 350 отправителей легальной электронной почты на основе выбора пользователя (например, по команде "не посылать запрос" конкретному отправителю), адресной книги пользователя, адресов, на которые пользователь отправил, по меньшей мере, заданное количество сообщений электронной почты, и/или посредством компонента 320 опознавательных запросов. Например, как только отправитель сообщения электронной почты корректно ответил на опознавательный запрос, компонент 320 опознавательных запросов может сохранить информацию, ассоциированную с данным отправителем (например, адрес электронной почты), в хранилище 350 отправителей легальной электронной почты.

В хранилище 350 отправителей легальной электронной почты можно дополнительно хранить уровень доверия, ассоциированный с отправителем легальной электронной почты. На сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные ассоциированному уровню доверия, компонент 320 опознавательных запросов опознавательных запросов не выдает, в то время как на сообщения электронной почты, имеющие ассоциированные вероятности, большие ассоциированного уровня доверия, компонент 320 опознавательных запросов выдает опознавательные запросы. Например, уровень доверия может основываться, по меньшей мере частично, на опознавательном запросе для сообщения, имеющего самую высокую ассоциированную вероятность, на который ответил отправитель.

В одном из вариантов реализации отправителя можно удалить из хранилища 350 отправителей легальной электронной почты на основе, по меньшей мере частично, действия пользователя (например, полученное от данного отправителя сообщение электронной почты удалено как спам). В соответствии с другим аспектом, отправителя можно добавить в хранилище 350 отправителей легальной электронной почты после того, как пользователь отправил данному отправителю одно сообщение электронной почты - это может оказаться полезным в случае списков рассылки.

В хранилище 360 отправителей спама хранится информация (например, адреса электронной почты), ассоциированная с распространителями спама. Сохранение информации в хранилище 360 отправителей спама может выполнять пользователь и/или компонент 320 опознавательных запросов. Например, как только пользователь удалил некоторое сообщение электронной почты в качестве спама, информацию, ассоциированную с отправителем данного сообщения электронной почты, можно сохранить в хранилище 360 отправителей спама. В другом примере, в хранилище 360 отправителей спама можно сохранить информацию, ассоциированную с отправителем сообщения электронной почты, который некорректно ответил на опознавательный запрос и/или не смог ответить на опознавательный запрос.

Фиг.5 иллюстрирует соответствующую одному из аспектов настоящего изобретения систему 500, предназначенную для обнаружения незапрашиваемой электронной почты. Система 500 включает в себя классификатор 510 почты, компонент 520 опознавательных запросов, папку(и) 530 для спама, папку(и) 540 для сообщений с подозрением на спам и папку(и) 550 для легальной электронной почты. Как описывалось выше, классификатор 510 почты определяет ассоциированную вероятность того, что сообщение электронной почты является спамом, и сохраняет данное сообщение электронной почты в папке(ах) 530 для спама, папке(ах) 540 для сообщений с подозрением на спам или папке(ах) 550 для легальной электронной почты. Входящие сообщения электронной почты подают на вход классификатора 510 почты, который, в свою очередь, на основе вероятностей классифицирует каждое из сообщений либо как легальное, либо как сообщение с подозрением на спам, либо как спам. Каждое сообщение направляют либо в папку(и) 530 для спама, либо в папку(и) 540 для сообщений с подозрением на спам, либо в папку(и) 550 для легальной электронной почты на основе его классификации.

Сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные первому пороговому значению, находятся в папке(ах) 550 для легальной электронной почты. Сообщения электронной почты, имеющие ассоциированные вероятности, большие первого порогового значения, но меньшие или равные второму пороговому значению, сохраняют в папке(ах) 540 для сообщений с подозрением на спам. Далее, сообщения электронной почты, имеющие ассоциированные вероятности, большие второго порогового значения, сохраняют в папке(ах) 530 для спама. Необходимо заметить, что первое пороговое значение и/или второе пороговое значение могут быть фиксированными на основе предпочтений пользователя и/или адаптивными (например, на основе, по меньшей мере частично, доступных вычислительных ресурсов). Затем компонент 520 опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, сохраненного в папке(ах) 540 для сообщений с подозрением на спам. Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде, вычисляемом опознавательном запросе, опознавательном запросе, требующем участия человека, и/или на требовании микроплатежа.

На основе, по меньшей мере частично, ответа на опознавательный запрос или отсутствия такового компонент 520 опознавательных запросов может переместить сообщение электронной почты из папки(ок) 540 для сообщений с подозрением на спам в папку(и) 550 для легальной электронной почты или в папку(и) 530 для спама. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент 520 опознавательных запросов может переместить сообщение электронной почты из папки/папок 540 для сообщений с подозрением на спам в папку(и) 550 для легальной электронной почты.

Далее, в случае приема неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов), компонент 520 опознавательных запросов может переместить сообщение электронной почты из папки(ок) 540 для сообщений с подозрением на спам в папку(и) 530 для спама.

Теперь обратимся к фиг.6, на которой изображена соответствующая одному из аспектов настоящего изобретения система 600, предназначенная для обнаружения незапрашиваемой электронной почты. Система 600 включает в себя классификатор 510 почты, компонент 520 опознавательных запросов, папку(и) 530 для спама, папку(и) 540 для сообщений с подозрением на спам и папку(и) 550 для легальной электронной почты. Система 600 дополнительно включает в себя хранилище 560 отправителей легальной электронной почты и/или хранилище 570 отправителей спама.

В хранилище 560 отправителей легальной электронной почты хранится информация (например, адреса электронной почты), ассоциированная с отправителями легальной электронной почты. На сообщения электронной почты от объектов, идентифицируемых в хранилище 560 отправителей легальной электронной почты, компонент 520 опознавательных запросов в общем случае опознавательных запросов не выдает. Соответственно, если в одном из примеров отправитель сообщений электронной почты хранится в хранилище 560 отправителей легальной электронной почты, то его сообщения электронной почты, сохраненные классификатором 510 почты в папке(ах) 530 для спама или в папке(ах) 540 для сообщений с подозрением на спам, перемещают в папку(и) 550 для легальной электронной почты.

Информацию (например, адреса электронной почты) можно сохранять в хранилище 560 отправителей легальной электронной почты на основе выбора пользователя (например, по команде "не посылать запрос" конкретному отправителю), адресной книги пользователя, адресов, на которые пользователь отправил, по меньшей мере, заданное количество сообщений электронной почты, и/или посредством компонента 520 опознавательных запросов. Например, как только отправитель сообщения электронной почты корректно ответил на опознавательный запрос, компонент 520 опознавательных запросов может сохранить информацию, ассоциированную с данным отправителем (например, адрес электронной почты), в хранилище 560 отправителей легальной электронной почты.

В хранилище 560 отправителей легальной электронной почты может дополнительно храниться уровень доверия, ассоциированный с отправителем легального сообщения электронной почты. Например, на сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные ассоциированному уровню доверия, компонент 520 опознавательных запросов не выдает опознавательные запросы, в то время как на сообщения электронной почты, имеющие ассоциированные вероятности, большие ассоциированного уровня доверия, компонент 520 опознавательных запросов выдает опознавательные запросы. Например, уровень доверия может основываться, по меньшей мере частично, на опознавательном запросе для сообщения, имеющего самую высокую ассоциированную вероятность, на который ответил отправитель.

В одном из примеров отправителя можно удалить из хранилища 560 отправителей легальной электронной почты на основе, по меньшей мере частично, действия пользователя (например, полученное от данного отправителя сообщение электронной почты удалено как спам). В другом примере отправителя можно добавить в хранилище 560 отправителей легальной электронной почты после того, как пользователь отправил данному отправителю одно сообщение электронной почты.

В хранилище 570 отправителей спама хранится информация (например, адреса электронной почты), ассоциированная с отправителями спама. Сохранение информации в хранилище 570 отправителей спама может выполнять пользователь и/или компонент 520 опознавательных запросов. Например, как только пользователь удалил некоторое сообщение в качестве спама, информацию, ассоциированную с отправителем данного сообщения электронной почты, можно сохранить в хранилище 570 отправителей спама. В другом примере, в хранилище 570 отправителей спама можно сохранить информацию, ассоциированную с отправителем сообщения электронной почты, который некорректно ответил на опознавательный запрос и/или не смог ответить на опознавательный запрос.

В одном из примеров в процессе выполнения опознавательного запроса может выполняться обмен уникальным идентификатором (например, чтобы уменьшить вероятность того, что распространитель спама сможет рассылать спам, используя адрес обычного отправителя). Отправители могут дополнительно использовать подпись сообщений. Неподписанные сообщения от тех отправителей, хранящихся в хранилище 560 отправителей легальной электронной почты, которые обычно подписывают свои сообщения, подвергаются обычной обработке и являются кандидатами на выполнение опознавательного запроса.

В другом примере отправители большого объема электронной почты могут формировать адрес "от кого" на индивидуальной основе (например, создавать для получателя уникальный адрес "от кого"). Например, адрес "от кого" может основываться на глобальном секретном ключе, известном отправителю и хешированном с адресом электронной почты получателя. В качестве альтернативы, для каждого получателя можно генерировать и хранить некоторое случайное число.

В третьем примере сообщение электронной почты включает в себя "идентификатор, уникальный для каждого получателя" (ИУП). ИУП добавляет уникальную информацию об отправителе в виде специального поля заголовка сообщения. Необходимо заметить, что ИУП не обязательно должен устанавливаться в зависимости от отправителя. Таким образом, в процессе пересылки почты внутри организации можно обеспечить наследование включения в хранилище 560 легальных отправителей электронной почты. ИУП может представлять собой открытый ключ, предназначенный для использования в системах цифровой подписи с открытым ключом (например, OpenPGP или S/MIME).

Кроме того, отправители сообщений электронной почты могут включать требование на выполнение опознавательного запроса (например, для содействия планированию получения опознавательных запросов). Например, сообщение электронной почты может включать в себя заголовок “CHALLENGE_ME_NOW: TRUE”. Это может заставить систему 600 автоматически послать опознавательный запрос и после получения корректного ответа включить отправителя в хранилище 560 легальных отправителей электронной почты.

Компонент 520 опознавательных запросов можно адаптировать для обнаружения сообщений электронной почты, полученных от списков рассылки (например, модерированных списков рассылки и/или немодерированных списков рассылки). Например, в сообщения электронной почты, полученные от списка рассылки, можно включать такие строки, как “Предшествование: список” или “Предшествование: массовая рассылка”. В другом примере компонент 520 опознавательных запросов обнаруживает то, что сообщение электронной почты является спамом на основе, по меньшей мере частично, обнаружения того, что содержимое строки "отправитель" отличается от содержимого строки "от кого". Заголовки сообщений электронной почты обычно содержат две различные строки, идентифицирующие отправляющую сторону: одну строку "от кого" вверху сообщения (например, помещаемую туда командой "от кого", используемой простым протоколом электронной почты (SMTP)), и поле заголовка “от кого:” (например, то, что обычно отображают для пользователя). В случае списков рассылки их содержимое может отличаться.

В одном из примеров компонент 520 опознавательных запросов может обнаруживать сообщения электронной почты, полученные от списков рассылки, и давать пользователю возможность включать эти списки рассылки в каталог (хранилище) 560 легальных отправителей электронной почты. Компонент 520 опознавательных запросов может дополнительно включать уровень доверия, ассоциированный со списками рассылки.

Трудность, на которую следует обратить внимание в связи со списками рассылки, состоит в том, чтобы уменьшить вероятность возникновения ситуации, при которой получение от списков рассылки сообщений, похожих на спам, создаст шторм опознавательных запросов к спискам рассылки. Характер данной проблемы зависит от типа списка. Имеются 8 различных ситуаций, хотя многие из них имеют одно и то же решение. В частности, список рассылки может быть модерированным или немодерированным, а кроме того, дополнительно обладать различными уровнями способности отвечать на опознавательные запросы. Это приводит к 8 типам.

Многие модерированные списки рассылки включают заголовок “кем санкционировано”. Например, для модерированных списков рассылки можно предположить, что либо все сообщения легальны, либо все - спам. В случае немодерированных списков можно предположить, что в список рассылки посылают некоторое количество сообщений, являющихся спамом. Таким образом, в случае немодерированного списка рассылки компонент 520 опознавательных запросов может позволить пользователю установить некоторое пороговое значение, определяющее, следует ли показывать похожие на спам сообщения, или же их нужно просто помещать в папку(и) 530 для спама.

Например, при обнаружении сообщения от списка рассылки пользователю предоставляется возможность определить ассоциированный с этим списком рассылки уровень доверия. Здесь следует позаботиться о том, чтобы не послать слишком много опознавательных запросов спискам рассылки, особенно тем из них, которые не имеют возможности автоматически отвечать на опознавательные запросы. В случае модерированных списков рассылки пользователь может, например, получить приглашение для включения списка рассылки в каталог (хранилище) 560 легальных отправителей электронной почты. В другом примере список рассылки может ответить на опознавательный запрос от компонента 520 опознавательных запросов и может быть включен в хранилище 560 легальных отправителей электронной почты. В третьем примере после подписки на список рассылки данный список рассылки предлагает пользователю, чтобы тот включил данный список рассылки в принадлежащее данному пользователю хранилище 560 легальных отправителей электронной почты.

В случае немодерированных списков рассылки пользователь может, например, получить приглашение для установления для списка рассылки некоторого порогового значения. Сообщения электронной почты, имеющие вероятность того, что они являются спамом, большую данного порогового значения, перемещают в папку(и) 530 для спама и/или удаляют. В другом примере список рассылки может ответить на опознавательный запрос от компонента 520 опознавательных запросов и может быть включен в хранилище 560 легальных отправителей электронной почты. В третьем примере после подписки на список рассылки данный список рассылки предлагает пользователю, чтобы тот включил данный список рассылки в принадлежащее данному пользователю хранилище 560 легальных отправителей электронной почты.

Компонент 520 опознавательных запросов может учитывать списки рассылки, которые не обладают способностью автоматически отвечать на опознавательные запросы. В частности, в случае модерированных списков рассылки компонент 520 опознавательных запросов может включать список рассылки в хранилище 560 легальных отправителей электронной почты. В случае немодерированных списков рассылки компонент 520 опознавательных запросов может содействовать установлению порогового значения для данного списка рассылки: на сообщения, превышающие пороговое значение, выдают опознавательные запросы, а сообщения, оказывающиеся ниже порогового значения, пропускают.

Включение в хранилище 560 легальных отправителей электронной почты может происходить в подходящий момент времени. В случае списков рассылки весьма вероятно, что пользователь не будет отправлять почту списку. Однако включение списка рассылки в хранилище 560 легальных отправителей электронной почты на основе небольшого количества полученных от данного списка сообщений представляется нежелательным. В противном случае распространитель спама сможет притвориться списком рассылки, послать небольшое количество сообщений (ни одно из которых не будет удалено как спам), после чего рассылать спам совершенно свободно. В одном из вариантов реализации, когда почта поступает от списка рассылки в первый раз и не детектируется как спам, пользователь получает приглашение для добавления данного списка рассылки в хранилище 560 легальных отправителей электронной почты с ассоциированным пороговым значением. Так как большинство списков рассылки включают приветственное сообщение, то если некоторые приветственные сообщения включены в обучающие данные, то маловероятно, что приветственное сообщение будет помечено как спам.

Однако же, если все первые поступающие сообщения в значительной степени похожи на спам, то эти сообщения следует включить в папку(и) 530 для спама. В частности, нежелательно, чтобы кто-либо имел возможность притвориться списком рассылки и рассылать спам. Таким образом, прежде чем список рассылки будет включен в хранилище 560 легальных отправителей электронной почты, компонент 520 опознавательных запросов может послать списку рассылки опознавательные запросы, как это описывалось выше. Если сообщения похожи на спам, но являются легальными, то пользователь может получать или не получать их в зависимости от того, как обрабатываются опознавательные запросы. Если ответы на опознавательные запросы не получены, то эти сообщения не будут пропущены. Таким образом, спаму будет трудно проникнуть. В конце концов, список рассылки отправит сообщение, не похожее на спам, и пользователь получит приглашение для установления политики для рассматриваемого списка рассылки.

Необходимо заметить, что списки рассылки могут иметь такой адрес "от кого", что почта, отправленная на этот адрес "от кого", отправляется всему списку. Если список оказывается списком именно такого типа, то отправка ему опознавательных запросов оказывается нежелательной, так как фактически их могут получить все подписчики списка рассылки. До того, как такой список рассылки будет включен в хранилище 560 легальных отправителей электронной почты, поступающий от него явный спам можно просто игнорировать. Определение процедуры включения в хранилище 560 легальных отправителей электронной почты в случае списков рассылки можно модифицировать. При условии того, что даже в случае модерированного списка рассылки строка "от кого" отличается для каждого отправителя, включение в хранилище 560 легальных отправителей электронной почты может основываться на других частях заголовка. Часто строка "кому" списка рассылки представляет собой имя списка рассылки (так что ответ направляется всему списку целиком). Таким образом, в случае списков рассылки включение в хранилище 560 легальных отправителей электронной почты может основываться, по меньшей мере частично, на строке "кому". Это может быть дополнением к классификации на основе строки "от кого" (например, если отправитель списка рассылки находится в хранилище 560 легальных отправителей электронной почты, то этого также должно быть достаточно). Необходимо заметить, что в случае списков рассылки в качестве альтернативы и/или дополнения в хранилище 560 легальных отправителей электронной почты можно включать информацию из других строк заголовка, таких как строка "отправитель".

Для того чтобы определить достоверность адресов электронной почты, распространители спама полагаются на "отражение". Многие обычные серверы электронной почты отражают электронную почту назад ее отправителю в случае, если она была направлена по недостоверному адресу. Таким образом, для таких серверов электронной почты отсутствие отражения сообщения электронной почты увеличивает показатель достоверности адреса электронной почты. Соответственно, распространители спама могут направлять больше сообщений, относящихся к спаму, на адреса, для которых не получено отражений.

Для тех серверов электронной почты, которые отражают электронную почту, опознавательные запросы настоящего изобретения не обеспечивают никакой дополнительной информации распространителю спама (например, отсутствие отражения является индикатором достоверности адреса). Кроме того, сервер электронной почты может самостоятельно посылать опознавательные запросы для "полуживых" адресов (например, достоверных, но неконтролируемых адресов) через систему, предназначенную для обнаружения незапрашиваемой электронной почты.

Что касается серверов электронной почты, которые не отражают электронную почту, направленную по недостоверным адресам, то сервер электронной почты опять же может самостоятельно посылать опознавательные запросы через систему, предназначенную для обнаружения незапрашиваемой электронной почты, чтобы, например, поведение недостоверных адресов было аналогичным поведению достоверных адресов. Более того, в одном из вариантов реализации серверная система может дополнительно прибавлять к вероятности того, что электронная почта является спамом, некоторый коэффициент рандомизации (например, чтобы предотвратить попытки обойти адаптивные фильтры спама).

На фиг.7 изображена соответствующая одному из аспектов настоящего изобретения система 700, предназначенная для ответа на опознавательный запрос. Система 700 включает в себя компонент 710 приема опознавательного запроса, компонент 720 обработки опознавательного запроса и компонент 730 ответа на опознавательный запрос.

Компонент 710 приема опознавательного запроса принимает опознавательный запрос (например, запрос, относящийся к ранее отправленной электронной почте). Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде, вычисляемом опознавательном запросе, опознавательном запросе, требующем участия человека, и/или на требовании микроплатежа.

В одном из примеров компонент 710 приема опознавательного запроса определяет, какие из множества модальностей опознавательного запроса необходимо переслать компоненту 720 обработки опознавательного запроса (например, на основе имеющихся вычислительных ресурсов и/или предпочтений пользователя). В другом примере компонент 710 приема опознавательного запроса предоставляет пользователю информацию с целью облегчения выбора одной из множества модальностей опознавательного запроса, тем самым позволяя пользователю выбрать ту модальность, если таковые имеются, которую пользователь намеревается использовать для ответа на опознавательный запрос. Например, компонент 710 приема опознавательного запроса может предоставлять информацию, которая может оказаться полезной для пользователя при выборе подходящей модальности ответа, такую как объем вычислительных ресурсов, необходимых для ответа на вычисляемый опознавательный запрос, сумма микроплатежа и/или баланс микроплатежного счета. Как только выбрана модальность опознавательного запроса, опознавательный запрос пересылают на компонент 720 обработки опознавательного запроса.

Необходимо заметить, что в определенных обстоятельствах пользователь может пожелать не отвечать на опознавательный запрос, в результате чего компоненту 720 обработки опознавательного запроса и/или компоненту 730 ответа на опознавательный запрос никакая информация не передается.

Компонент 720 обработки опознавательного запроса обрабатывает опознавательный запрос и предоставляет выходные данные, ассоциированные с обработанным опознавательным запросом. Например, если опознавательный запрос включает в себя встроенный код, то компонент 720 обработки опознавательного запроса может предоставить компоненту 730 ответа на опознавательный запрос выходные данные, которые включают в себя этот встроенный код. В том случае, когда опознавательный запрос включает в себя вычисляемый опознавательный запрос, компонент 720 обработки опознавательного запроса может содействовать формированию решения этого вычисляемого опознавательного запроса. В случае, если опознавательный запрос включает в себя опознавательный запрос, требующий участия человека, компонент 720 обработки опознавательного запроса может предоставить пользователю информацию, содействующую разрешению опознавательного запроса, требующего участия человека. В одном из примеров опознавательный запрос, требующий участия человека, может включать в себя задачу, решение которой является относительно простым для человека, но относительно трудным для компьютера. В одном из примеров опознавательный запрос, требующий участия человека, включает в себя изображение слова (например, в формате GIF или JPEG). Само слово частично замаскировано шумами. Наличие шумов усложняет автоматическую разработку компьютерной программы, предназначенной для считывания слова (или, по меньшей мере, использования готовых компонентов), и в то же время не слишком усложняет считывание слова человеком. В данном примере компонент 720 обработки опознавательного запроса может предоставлять пользователю изображение слова. Затем пользователь предоставляет это слово обратно компоненту 720 обработки опознавательного запроса. Компонент 720 обработки опознавательного запроса предоставляет выходные данные, включающие в себя это слово, компоненту 730 ответа на опознавательный запрос.

В случае, если опознавательный запрос включает в себя требование микроплатежа, компонент 720 обработки опознавательного запроса может содействовать предоставлению выходных данных компоненту 730 ответа на опознавательный запрос. В одном из примеров ответ на опознавательный запрос с требованием микроплатежа основывается на "сертификате спама" однократного использования, который может быть выдан неким выпускающим органом. Компонент 720 обработки опознавательного запроса может либо автоматически, либо на основе пользовательского ввода предоставить номер сертификата спама компоненту 730 ответа на опознавательный запрос. После предоставления номера сертификата спама данный сертификат спама аннулируют (например, сертификат однократного использования).

В другом примере ответ на опознавательный запрос с требованием микроплатежа основывается на микроплатежном счете. Каждый подобный ответ вызывает списание некоторой суммы с микроплатежного счета, поддерживаемого неким выпускающим органом. Компонент 720 обработки опознавательного запроса может предоставлять компоненту 730 ответа на опознавательный запрос информацию, ассоциированную с микроплатежным счетом.

Компонент 730 ответа на опознавательный запрос выдает ответ на опознавательный запрос на основе, по меньшей мере частично, выходных данных, ассоциированных с обработанным опознавательным запросом. Так, например, ответ на опознавательный запрос может включать в себя встроенный код, решение для вычисляемого опознавательного запроса, решение для опознавательного запроса, требующего участия человека, и/или микроплатеж.

Например, в одном из вариантов реализации в целях уменьшения вероятности атак типа "отказ в обслуживании" вычисляемые опознавательные запросы упорядочивают по количеству опознавательных запросов, уже обработанных для данного сообщения. Обработку сообщений с меньшим количеством обработанных опознавательных запросов выполняют перед обработкой сообщений с большим количеством обработанных опознавательных запросов (например, по мере доступности вычислительных ресурсов). Таким образом, в случае отправки сообщения в список рассылки, получатель может намеренно отправлять вычисляемые опознавательные запросы в целях выполнения атаки типа "отказ в обслуживании". Однако, как только будет выполнена обработка одного или более вычисляемых опознавательных запросов, относящихся к данному сообщению, приоритет будет отдан другим сообщениям, имеющим меньшее количество обработанных опознавательных запросов, тем самым снижая вероятность атаки типа "отказ в обслуживании".

Имея в виду примеры систем, показанных и описанных выше, лучшее понимание методик, которые можно реализовать в соответствии с настоящим изобретением, достигается при рассмотрении со ссылкой на блок-схемы алгоритмов по фиг. 8, 9, 10 и 11. Хотя в целях простоты изложения эти методики показаны и описаны как последовательности блоков (этапов), следует понимать и признать, что настоящее изобретение не ограничивается порядком следования этапов, так как в соответствии с настоящим изобретением некоторые этапы могут располагаться в ином порядке и/или одновременно с другими этапами из числа тех, что показаны и описаны в настоящем документе. Более того, не все из изображенных этапов могут потребоваться для реализации соответствующих настоящему изобретению методик.

Описание настоящего изобретения может быть выполнено в общем контексте машинно-исполняемых инструкций, таких как программные модули, исполняемые одним или более компонентами. В общем случае, программные модули включают в себя процедуры, программы, объекты, структуры данных и т.д., которые выполняют определенные задачи или реализуют определенные абстрактные типы данных. Как правило, в различных вариантах осуществления функциональность программных модулей можно комбинировать или распределять по желанию.

Обратимся к фиг.8 и 9, на которых проиллюстрирован соответствующий одному из аспектов настоящего изобретения способ 800, предназначенный для обнаружения незапрашиваемого сообщения электронной почты. На этапе 804 получают сообщение электронной почты. На этапе 808 определяют вероятность того, что это сообщение электронной почты является спамом (например, посредством классификатора почты).

На этапе 812 определяют, находится ли отправитель данного сообщения электронной почты в каталоге легальных отправителей электронной почты. Если на этапе 812 получен ответ ДА, то обработка продолжается на этапе 816. Если же на этапе 812 получен ответ НЕТ, то на этапе 820 определяют, находится ли отправитель данного сообщения электронной почты в каталоге отправителей спама. Если на этапе 820 получен ответ ДА, то обработка продолжается на этапе 824. Если же на этапе 820 получен ответ НЕТ, то на этапе 828 определяют, превышает ли вероятность того, что данное сообщение электронной почты является спамом, первое пороговое значение. Если на этапе 828 получен ответ НЕТ, то обработка продолжается на этапе 816. Если же на этапе 828 получен ответ ДА, то на этапе 832 отправителю данного сообщения электронной почты посылают один или более опознавательных запросов.

На этапе 836 определяют, получен ли ответ на опознавательный запрос. Если на этапе 836 получен ответ НЕТ, то обработка продолжается на этапе 836. Если же на этапе 836 получен ответ ДА, то на этапе 840 определяют, корректен ли полученный ответ на опознавательный запрос. Если на этапе 840 получен ответ ДА, то обработка продолжается на этапе 816. Ели же на этапе 840 получен ответ НЕТ, то обработка продолжается на этапе 824.

На этапе 816 сообщение электронной почты идентифицируют как "не спам" (например, его помещают в папку(и) для легальной электронной почты и/или уменьшают ассоциированную вероятность). Затем на этапе 844 отправителя данного сообщения электронной почты добавляют в каталог отправителей легальной электронной почты, после чего дальнейшая обработка прекращается.

На этапе 824 сообщение электронной почты идентифицируют как спам (например, его помещают в папку(и) для спама и/или увеличивают ассоциированную вероятность). Затем на этапе 848 отправителя данного сообщения электронной почты добавляют в каталог отправителей спама, после чего дальнейшая обработка прекращается.

Теперь обратимся к фиг.10, на которой проиллюстрирован соответствующий одному из аспектов настоящего изобретения способ 1000, предназначенный для ответа на опознавательный запрос. На этапе 1010 отправляют сообщение электронной почты. На этапе 1020 получают опознавательный запрос (например, встроенный код, вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа). На этапе 1030 выполняют обработку опознавательного запроса. На этапе 1040 отправляют ответ на опознавательный запрос.

Теперь обратимся к фиг.11, на которой проиллюстрирован соответствующий одному из аспектов настоящего изобретения способ 1100, предназначенный для ответа на опознавательные запросы. На этапе 1110 отправляют сообщения электронной почты. На этапе 1120 получают опознавательные запросы (например, каждый из которых содержит встроенный код, представляет собой вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа). На этапе 1130 подлежащие обработке опознавательные запросы упорядочивают на основе, по меньшей мере частично, того, что обработку сообщений с меньшим количеством опознавательных запросов выполняют перед обработкой сообщений с большим количеством опознавательных запросов (например, чтобы уменьшить вероятность атак типа "отказ в обслуживании"). На этапе 1140 выполняют обработку опознавательного запроса. На этапе 1150 отправляют ответ на выбранный опознавательный запрос. На этапе 1160 определяют, имеются ли еще подлежащие обработке опознавательные запросы. Если на этапе 1160 получен ответ ДА, то обработка продолжается на этапе 1130. Если же на этапе 1160 получен ответ НЕТ, то дальнейшую обработку прекращают.

Теперь обратимся к фиг.12, на которой изображен соответствующий одному из аспектов настоящего изобретения примерный вариант пользовательского интерфейса 1200, предназначенного для ответа на множество опознавательных запросов. В данном примерном варианте пользовательского интерфейса пользователь получает приглашение со следующим сообщением:

ОТПРАВЛЕННОЕ ВАМИ СООБЩЕНИЕ ЭЛЕКТРОННОЙ ПОЧТЫ БЫЛО КЛАССИФИЦИРОВАНО КАК ПОТЕНЦИАЛЬНЫЙ СПАМ. ЕСЛИ ВЫ НЕПРАВИЛЬНО ОТВЕТИТЕ НА ОДИН ИЗ ПРИВЕДЕННЫХ НИЖЕ ОПОЗНАВАТЕЛЬНЫХ ЗАПРОСОВ, ТО ДАННОЕ СООБЩЕНИЕ ЭЛЕКТРОННОЙ ПОЧТЫ МОЖЕТ БЫТЬ ИДЕНТИФИЦИРОВАНО КАК СПАМ И/ИЛИ УДАЛЕНО КАК СПАМ.

Пользователю предлагают на выбор три возможных варианта: вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и микроплатеж. На основе, по меньшей мере частично, выбора пользователя, можно выполнить обработку выбранного опознавательного запроса.

В целях предоставления дополнительного контекста для различных аспектов настоящего изобретения приводятся фиг.13 и нижеследующее описание, предназначение которых состоит в кратком общем описании подходящей операционной среды 1310, в рамках которой можно реализовать различные аспекты настоящего изобретения. Хотя описание данного изобретения приводится в рамках общего контекста машинно-исполняемых инструкций, таких как программные модули, исполняемые одним или более компьютерами или другими устройствами, специалисты в рассматриваемой области техники согласятся, что настоящее изобретение также можно реализовать в комбинации с другими программными модулями и/или в виде комбинации аппаратных средств и программного обеспечения. В общем случае, программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют определенные задачи или реализуют определенные типы данных. Операционная среда 1310 является всего лишь примером подходящей операционной среды и не призвана установить какие-либо ограничения на область применения или функциональность настоящего изобретения. Другие широко известные компьютерные системы, среды и/или конфигурации, которые могут подходить для использования совместно с настоящим изобретением, включают в себя персональные компьютеры, переносные или портативные устройства, мультипроцессорные системы, микропроцессорные системы, программируемую электронную бытовую технику, сетевые персональные компьютеры (ПК), миникомпьютеры, универсальные большие вычислительные машины, распределенные вычислительные среды, включающие в себя вышеперечисленные системы и устройства, и т.п., но не ограничиваются вышеперечисленным.

Согласно фиг.13 примерный вариант среды 1310, предназначенной для реализации различных аспектов настоящего изобретения, включает в себя компьютер 1312. Компьютер 1312 включает в себя блок 1314 обработки, системное запоминающее устройство 1316 и системную шину 1318. Системная шина 1318 соединяет компоненты системы, включая соединение системного запоминающего устройства 1316 с блоком 1314 обработки, но не ограничиваясь им. В качестве блока 1314 обработки может выступать любой из различных доступных процессоров. В качестве блока 1314 обработки также можно использовать два микропроцессора или другие многопроцессорные архитектуры.

Системная шина 1318 может относиться к одному из нескольких типов структур шин, включая шину запоминающего устройства или контроллер запоминающего устройства, шину периферийных устройств или внешнюю шину и/или локальную шину, использующую всевозможные разнообразные имеющиеся архитектуры шин, включая 13-битную шину; архитектуру, соответствующую промышленному стандарту (шина ISA); микроканальную архитектуру (шина MCA); расширенную архитектуру, соответствующую промышленному стандарту (шина EISA); интеллектуальный интерфейс накопительных устройств (шина IDE); локальную шину по стандарту Ассоциации по стандартам в области видеоэлектроники (шина VLB); шину межкомпонентных соединений (шина PCI); универсальную последовательную шину (шина УПШ(USB)); шину усовершенствованного графического порта (шина AGP); шину по стандарту Международной ассоциации производителей плат памяти для персональных компьютеров (шина PCMCIA); и интерфейс малых компьютерных систем (шина SCSI), но не ограничиваясь вышеперечисленным.

Системное запоминающее устройство 1316 включает в себя энергозависимое запоминающее устройство 1320 и энергонезависимое запоминающее устройство 1322. В энергонезависимом запоминающем устройстве 1322 хранится базовая система ввода/вывода (BIOS), которая содержит основные процедуры, предназначенные для передачи информации между элементами внутри компьютера 1312, например, в процессе запуска. В качестве примера, но отнюдь не ограничения, энергонезависимое запоминающее устройство 1322 может включать в себя постоянное запоминающее устройство (ПЗУ), программируемое ПЗУ (ППЗУ), электрически программируемое ПЗУ (ЭППЗУ), электрически стираемое программируемое ПЗУ (ЭСППЗУ), или флэш-память. Энергозависимое запоминающее устройство 1320 включает в себя оперативное запоминающее устройство (ОЗУ), которое выступает в роли внешней кэш-памяти. В качестве примера, но отнюдь не ограничения, энергозависимое запоминающее устройство 1320 доступно во множестве форм, таких как синхронное ОЗУ (SRAM), динамическое ОЗУ (DRAM), синхронное динамическое ОЗУ (SDRAM), синхронное динамическое ОЗУ с удвоенной скоростью передачи данных (DDR SDRAM), усовершенствованное синхронное динамическое ОЗУ (ESDRAM), динамическое ОЗУ по технологии Synchlink (SLDRAM), а также ОЗУ прямого доступа по технологии Rambus (DRRAM).

Компьютер 1312 также включает в себя съемный/несъемный энергозависимый/энергонезависимый носитель информации компьютера. На фиг.13 в качестве примера изображен накопитель 1324 на дисках. Накопитель 1324 на дисках включает в себя устройства, подобные магнитному дисководу, дисководу на гибких дисках, ленточному накопителю, дисководу типа Jaz, дисководу типа Zip, дисководу типа LS-100, карте флэш-памяти или карте памяти Memory Stick, но не ограничивается вышеперечисленным. Кроме того, накопитель 1324 на дисках может включать в себя носитель информации отдельно, либо в комбинации с другими носителями информации, включающими в себя привод оптических дисков, такой как устройство чтения ПЗУ на компакт-дисках (CD-ROM), привод компакт-дисков однократной записи (привод CD-R), привод перезаписываемых компакт-дисков (привод CD-RW) или привод ПЗУ на универсальных цифровых дисках (привод DVD-ROM), но не ограничивающимися вышеперечисленным. Для обеспечения связи накопителя 1324 на дисках с системной шиной 1318 используют интерфейс съемных или несъемных устройств, такой как интерфейс 1326.

Необходимо заметить, что фиг.13 описывает программное обеспечение, которое выступает в роли посредника между пользователями и основными ресурсами компьютера, описанными в контексте подходящей операционной среды 1310. Такое программное обеспечение включает в себя операционную систему 1328. Операционная система 1328, которую можно хранить на накопителе 1324 на дисках, действует с целью управления и выделения ресурсов компьютерной системы 1312. Системные приложения 1330 пользуются преимуществами управления ресурсами посредством операционной системы 1328 через программные модули 1332 и данные 1334 программ, хранящиеся либо в системном запоминающем устройстве 1316, либо на накопителе 1324 на дисках. Необходимо заметить, что настоящее изобретение можно реализовать для различных операционных систем или их комбинаций.

Пользователь вводит в компьютер 1312 команды или информацию посредством устройств 1336 ввода. Устройства 1336 ввода включают в себя координатно-указательное устройство, такое как мышь, шаровой манипулятор, световое перо, сенсорная панель, клавиатура, микрофон, джойстик, игровая клавиатура, параболическая спутниковая антенна, сканер, карта телевизионного приемника, цифровая фотокамера, цифровая видеокамера, веб-камера и т.п., но не ограничиваются вышеперечисленным. Эти и другие устройства ввода соединяют с блоком 1314 обработки через системную шину 1318 посредством интерфейсных портов 1338. Интерфейсные порты 1338 включают в себя, например, последовательный порт, параллельный порт, игровой порт и универсальную последовательную шину (шину УПШ(USB)). Устройства 1340 вывода используют некоторые из тех же типов портов, что и устройства 1336 ввода. Так, например, порт УПШ(USB) можно использовать для предоставления входных данных компьютеру 1312 и выдачи информации от компьютера 1312 на устройство 1340 вывода. Адаптер 1342 вывода приведен для иллюстрации того факта, что среди прочих устройств 1340 вывода существуют некоторые устройства 1340 вывода, такие как мониторы, акустические системы и принтеры, которым требуются специальные адаптеры. Адаптеры 1342 вывода включают в себя, в качестве примера, но отнюдь не ограничения, видеокарты и звуковые карты, которые предоставляют средства соединения между устройством 1340 вывода и системной шиной 1318. Следует отметить, что другие устройства и/или системы устройств, такие как удаленные компьютеры 1344, обеспечивают возможности как ввода, так и вывода.

Компьютер 1312 может функционировать в сетевой среде, используя логические соединения с одним или более компьютерами, такими как удаленный компьютер 1344. Удаленный компьютер 1344 может представлять собой персональный компьютер, сервер, маршрутизатор, сетевой ПК, рабочую станцию, микропроцессорный бытовой прибор, компонент одноранговой сети или другой обычный сетевой узел и т.п. и обычно включает в себя многие или все элементы, описанные в связи с компьютером 1312. В целях краткости изложения в составе удаленного компьютера 1344 показано только запоминающее устройство 1346. Удаленный компьютер 1344 логически соединен с компьютером 1312 через сетевой интерфейс 1348, а физическое соединение выполняется через коммуникационное соединение 1350. Сетевой интерфейс 1348 охватывает такие коммуникационные сети, как локальные сети (ЛС) и глобальные сети (ГС). Технологии ЛС включают в себя распределенный интерфейс передачи данных по волоконно-оптическим каналам (FDDI), распределенный проводной интерфейс передачи данных (CDDI), Ethernet/IEEE 1302.3, Token Ring/IEEE 1302.5 и т.п. Технологии глобальных сетей включают в себя соединения типа "точка-точка", сети с коммутацией цепей, такие как цифровые сети связи с комплексными услугами (ЦССКУ(ISDN)) и их варианты, сети с коммутацией пакетов, а также цифровые абонентские линии (ЦАЛ(DSL)), но не ограничиваются вышеперечисленным.

Коммуникационные соединения 1350 (соединения связи) относятся к аппаратным средствам/программному обеспечению, используемым для соединения сетевого интерфейса 1348 с шиной 1318. Хотя в целях ясности изложения коммуникационное соединение 1350 показано находящимся внутри компьютера 1312, оно также может быть и внешним по отношению к компьютеру 1312. Необходимые для соединения через сетевой интерфейс 1348 аппаратные средства/программное обеспечение включают в себя, исключительно в качестве примера, внутренние и внешние технологии, такие как модемы, включая обычные модемы для соединения через телефонные линии, кабельные модемы и модемы ЦАЛ(DSL), адаптеры ЦССКУ(ISDN) и карты Ethernet.

Приведенное выше описание включает в себя примеры настоящего изобретения. Естественно, в целях описания настоящего изобретения невозможно рассмотреть все потенциальные комбинации компонентов и методик, однако рядовой специалист в рассматриваемой области техники согласится, что возможно множество дальнейших комбинаций и модификаций настоящего изобретения. Соответственно подразумевается, что настоящее изобретение охватывает все такие изменения, модификации и варианты, которые соответствуют идеям и предметной области нижеследующей формулы изобретения. Более того, в той степени, в которой термин "включать" применяется либо в детальном описании, либо в формуле изобретения, его значение следует считать аналогичным значению термина "содержать" в том объеме, в котором термин "содержать" интерпретируется при использовании в качестве связующего слова в пунктах формулы изобретения.

1. Система, содействующая обнаружению незапрашиваемой электронной почты, содержащая:
компонент электронной почты, который принимает или сохраняет сообщения, а также принимает или вычисляет ассоциированные вероятности того, что данные сообщения электронной почты являются спамом, вычисленные классификатором электронной почты, на основании, по меньшей мере частично, вектора признаков, генерируемого для каждого сообщения упомянутым классификатором;
компонент опознавательных запросов, который выборочно посылает опознавательный запрос отправителю сообщения электронной почты, имеющего вероятность, большую первого порогового значения, причем компонент опознавательных запросов дополнительно корректирует вероятность того, что данные сообщения электронной почты являются спамом, на основании, по меньшей мере частично, ответа на опознавательный запрос.

2. Система по п.1, дополнительно содержащая классификатор почты, который принимает сообщения электронной почты и определяет ассоциированную вероятность того, что данное сообщение электронной почты является спамом.

3. Система по п.1, в которой опознавательный запрос представляет собой встроенный код.

4. Система по п.1, в которой опознавательный запрос представляет собой вычисляемый опознавательный запрос.

5. Система по п.4, в которой вычисляемый опознавательный запрос представляет собой результат одностороннего хеширования сообщения, включая временную метку и метку получателя.

6. Система по п.1, в которой опознавательный запрос представляет собой опознавательный запрос, требующий участия человека.

7. Система по п.1, в которой опознавательный запрос представляет собой требование микроплатежа.

8. Система по п.1, в которой пользователю предоставляют варианты опознавательных запросов на выбор, причем выбор вариантов опознавательных запросов основывается на фильтре.

9. Система, содействующая обнаружению незапрашиваемых сообщений и содержащая:
классификатор почты, который принимает входящее сообщение и классифицирует это входящее сообщение как спам или легальное сообщение на основании, по меньшей мере частично, вероятности того, что данное сообщение электронной почты является спамом, на основании, по меньшей мере частично, уменьшенной посредством применения закона Зипфа матрицы N×M отличительных признаков, имеющихся в сообщении; и
компонент опознавательных запросов, который выборочно посылает опознавательный запрос отправителю сообщения электронной почты, если данное сообщение классифицировано как спам, причем компонент опознавательных запросов дополнительно корректирует вероятность того, что данное сообщение электронной почты является спамом, на основании, по меньшей мере частично, ответа на опознавательный запрос.

10. Система по п.9, в которой дополнительно классификатор почты сохраняет входящее сообщение в папке для спама или в папке для легальных сообщений.

11. Система по п.10, в которой дополнительно компонент опознавательных запросов перемещает сообщение из папки для спама в папку для легальных сообщений, на основе, по меньшей мере частично, ответа на опознавательный запрос.

12. Система по п.9, в которой опознавательный запрос представляет собой встроенный код.

13. Система по п.9, в которой опознавательный запрос представляет собой вычисляемый опознавательный запрос.

14. Система по п.9, в которой опознавательный запрос представляет собой опознавательный запрос, требующий участия человека.

15. Система по п.9, в которой опознавательный запрос представляет собой требование микроплатежа.

16. Система по п.9, дополнительно содержащая хранилище отправителя(ей) легальных сообщений, в котором хранится информация, ассоциированная с отправителями легальных сообщений.

17. Система по п.16, в которой компонент опознавательных запросов добавляет информацию, ассоциированную с отправителем сообщения, в хранилище отправителей легальных сообщений, если на опознавательный запрос получен корректный ответ.

18. Система по п.9, дополнительно содержащая хранилище отправителя(ей) спама, в котором хранится информация, ассоциированная с отправителями спама.

19. Система, содействующая обнаружению незапрашиваемой электронной почты и содержащая:
классификатор почты, который принимает входящее сообщение и классифицирует это входящее сообщение как спам, как сообщение с подозрением на спам или как легальную электронную почту, на основании по меньшей мере частично, изменения субъективного восприятия и предпочтений пользователя; и компонент опознавательных запросов, который выборочно посылает опознавательный запрос отправителю сообщения электронной почты, которое было классифицировано как сообщение с подозрением на спам, причем компонент опознавательных запросов дополнительно корректирует вероятность того, что данное сообщение электронной почты является спамом, на основании, по меньшей мере частично, ответа на опознавательный запрос.

20. Система по п.19, в которой дополнительно классификатор почты сохраняет входящее сообщение электронной почты в папке для спама, папке для сообщений с подозрением на спам или в папке для легальной почты.

21. Система по п.20, в которой дополнительно компонент опознавательных запросов перемещает сообщение электронной почты из папки для сообщений с подозрением на спам в папку для спама или в папку для легальной почты, на основе, по меньшей мере частично, ответа на опознавательный запрос.

22. Система по п.19, дополнительно содержащая хранилище отправителей легальной электронной почты, в котором хранится информация, ассоциированная с отправителями легальной электронной почты.

23. Система по п.19, дополнительно содержащая хранилище отправителей спама, в котором хранится информация, ассоциированная с отправителями спама.

24. Система по п.19, в которой сообщение электронной почты включает в себя идентификатор, уникальный для получателя.

25. Система по п.19, в которой дополнительно компонент опознавательных запросов адаптирован для обнаружения того факта, что сообщение электронной почты поступило от списка рассылки.

26. Система по п.25, в которой дополнительно компонент опознавательных запросов адаптирован для обнаружения того факта, что список рассылки является модерированным или немодерированным списком рассылки.

27. Способ обнаружения незапрашиваемой электронной почты и заключающийся в том, что:
выборочно посылают опознавательный запрос отправителю сообщения электронной почты, которое было классифицировано как сообщение с подозрением на спам;
принимают ответ на опознавательный запрос; и
корректируют классификацию данного сообщения электронной почты на основе, по меньшей мере частично, ответа на опознавательный запрос или изменения субъективного восприятия и предпочтений пользователя.

28. Способ по п.27, дополнительно заключающийся в том, что выполняют по меньшей мере одно из следующих действий:
принимают сообщение электронной почты;
классифицируют сообщение электронной почты как спам, сообщение с подозрением на спам или легальную электронную почту;
определяют, хранится ли отправитель в хранилище отправителей легальной электронной почты; и
определяют, хранится ли отправитель в хранилище отправителей спама.

29. Способ по п.27, в котором опознавательный запрос представляет собой по меньшей мере одно из: встроенный код; вычисляемый опознавательный запрос; опознавательный запрос, требующий участия человека; требование микроплатежа.

30. Считываемый компьютером носитель информации, хранящий исполняемые компьютером компоненты системы, содействующей обнаружению незапрашиваемой электронной почты, причем этот носитель содержит:
компонент классификатора почты, который принимает сообщения электронной почты и определяет ассоциированную вероятность того, что данное сообщение электронной почты является спамом, на основании, по меньшей мере частично, уменьшенной посредством применения закона Зипфа матрицы N×M отличительных признаков, имеющихся в сообщении; и
компонент опознавательных запросов, который выборочно посылает опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения, причем компонент опознавательных запросов дополнительно корректирует вероятность того, что данное сообщение электронной почты является спамом, на основании, по меньшей мере частично, ответа на опознавательный запрос.

31. Система, содействующая обнаружению незапрашиваемой электронной почты и содержащая:
средство, предназначенное для определения вероятности того, что
сообщение электронной почты является спамом; и
средство, предназначенное для выборочной отправки опознавательного запроса отправителю сообщения электронной почты, имеющего вероятность, большую первого порогового значения,
средство для дополнительной корректировки вероятности того, что данное сообщение электронной почты является спамом, на основании, по меньшей мере частично, ответа на опознавательный запрос или изменения субъективного восприятия и предпочтений пользователя.



 

Похожие патенты:

Изобретение относится к области радиосвязи и может использоваться в сетевых устройствах для систем радиосвязи с множественным доступом с кодовым разделением каналов.

Изобретение относится к обработке сообщения, адресованного в клиентский терминал, причем клиентский терминал содержит клиента обмена сообщениями, предназначенного для обработки сообщений.

Изобретение относится к обмену данными между клиентскими и серверными приложениями в компьютерных сетях, в частности, приложениями, обеспечивающими передачу электронной почты.

Изобретение относится к системе и способу для усовершенствованной связи клиента и сервера, в частности усовершенствованному протоколу, который можно использовать для связи между клиентом и сервером в среде электронной почты.

Изобретение относится к системе связи и предназначено для маршрутизации сообщения временно недоступному пользователю сети. .

Изобретение относится к области электронной почты. .

Изобретение относится к устройству и способу предоставления обслуживания с гарантированной скоростью передачи кадров (ГСПК) в АРП-коммутаторе. .

Изобретение относится к коммерческим системам связи. .

Изобретение относится к обеспечению информационной безопасности на web-серверах. .

Изобретение относится к области защиты информационных систем, а именно к оценке защищенности информационных систем путем представления системных состояний, требований безопасности и модели контроля и управления доступом с использованием логики предикатов и автоматической проверки соблюдения требований безопасности на множестве системных состояний с учетом правил модели контроля и управления доступом.

Изобретение относится к контрольно-измерительной технике и может быть использовано в телекоммуникационных системах. .

Изобретение относится к области управления безопасностью операционных систем семейства Windows (в т.ч. .

Изобретение относится к области техники защиты цифрового контента и, в частности, к области воспроизведения цифрового контента с использованием лицензий. .

Изобретение относится к системам и способам для координации программных компонентов в программном продукте. .

Изобретение относится к архитектуре и способу разрешения воспроизведения цифрового контента с соответствующей цифровой лицензией, привязанной к конкретному вычислительному устройству, Передающее и принимающее вычислительные устройства соединены между собой посредством сети.

Изобретение относится к вычислительным системам и способам для предоставления защищенного доступа к базе данных. .
Наверх