Способ отбора эффективных вариантов в поисковых и рекомендательных системах (варианты)

Изобретение относится к компьютерной технике. Технический результат - высокая скорость отбора и точность результатов поиска. Способ отбора и ранжирования эффективных вариантов результатов поиска, заключающийся в том, что предварительно формируют критерии оценки релевантности варианта результатов поиска поисковому запросу и задают конечное число вариантов результатов поиска или набор процедур выбора и ранжирования вариантов результатов поиска и последовательность их выполнения для отбора вариантов результатов поиска, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов результатов поиска по релевантности критериям поискового запроса, на основании которой ранжируют варианты результатов поиска путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов результатов поиска по методу суперпозиции, по меньшей мере, в два этапа, если количество вариантов результатов поиска в оставшейся группе вариантов результатов поиска соответствует предварительно заданному конечному числу вариантов результатов поиска для отбора или использованы все заданные процедуры выбора, отбор вариантов результатов поиска и их ранжирование прекращают и варианты результатов поиска из отобранной группы оценивают как наиболее эффективные, если количество вариантов результатов поиска в оставшейся группе вариантов результатов поиска не соответствует предварительно заданному конечному числу вариантов результатов поиска для отбора, отбор вариантов результатов поиска и их ранжирование продолжают. 3 н. и 9 з.п. ф-лы, 1 ил.

 

Изобретение относится к вычислительной технике, может быть реализовано на современных быстродействующих ЭВМ и использовано, например, при отборе эффективных вариантов в поисковых, рекомендательных системах, системах поддержки принятия решений, сетях Интернет, системах автоматической классификации пакетов данных, и в других смежных областях. Реализация заявляемого изобретения может включать в себя хранение информации на физических носителях, магнитных дисках, сетевых хранилищах информации, ее обработку на ЭВМ и предоставление полученного набора эффективных вариантов конечному пользователю в любом доступном для него виде.

Перед изложением изобретения для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений и/или терминов.

Поисковая система - компьютерная программа, предназначенная для поиска информации в сети Интернет. Поиск производится на основании сформированного пользователем произвольного текстового запроса. Результаты поиска представляются пользователю отсортированными в соответствии с определенной характеристикой релевантности запросу. Примерами поисковых систем являются Bing, Google, Yahoo, Yandex.

Рекомендательная система - компьютерная программа, выбирающая из всего набора предъявленных альтернатив (вариантов) те, которые могут быть наиболее интересны конкретному пользователю, на основании ряда характеристик, например, введенного пользователем запроса в поисковой системе. Следует отметить, что в большинстве случаев рекомендательные системы представляют результат либо в виде набора рекомендованных вариантов, либо в виде ранжирования всех или части предъявленных вариантов. Таким образом, способы обработки и преобразования информации в рамках рекомендательных систем работают в смежных сферах, таких как, например, задача оценки эффективности деятельности предприятий, и др.

Принцип суперпозиции (в рассматриваемом контексте, в отличие от известного принципа суперпозиции в физике) заключается в последовательном исключении вариантов из исходного множества с использованием процедур, которые на каждом этапе исключения могут быть различными. Пример процедур приведен в приложении 1. На первом этапе исключение производится из всего исходного множества вариантов, на втором этапе входным множеством являются эффективные варианты, выделенные на первом этапе, и т.д.

Эффективными ("хорошими") элементами (вариантами) называют те элементы, которые являются наилучшими, наиболее предпочтительными, наиболее полезными по заданным параметрам для решения конкретных задач, в которых необходимо произвести ранжирование вариантов, и для удовлетворения информационных потребностей пользователей (людей, специалистов, агентов).

Неэффективными ("плохими") элементами (вариантами) называют те элементы, которые заведомо никогда (ни при каких обстоятельствах) не могут быть использованы для решения конкретных задач, так как для их решения существуют более предпочтительные варианты.

Значение эффективности, с помощью которого происходит построение правил отбора и ранжирования вариантов, задается экспертным путем.

Большинство поисковых систем имеют средства хранения и обработки данных, содержащие такие оценки эффективности (релевантности) для больших представительных наборов запросов и результатов поиска по этим запросам. В таких средствах запрос и результаты поиска по нему (варианты) представлены своими наборами критериев и оценкой релевантности результатов поиска, выставленной экспертами.

Существуют различные формальные критерии оценки релевантности поискового элемента поисковому запросу, заданные конструктивно (как, например, частота употребления слова в тексте или критерий TF-IDF, представляющий собой частоту употребления слов запроса в тексте с учетом степени важности каждого слова). Отметим, что такие формальные критерии являются скорее алгоритмами, по которым существующие поисковые системы собственно производят поиск, чем независимыми критериями, оценивающими результаты этого поиска. Оценки, подсчитанные такими формальными критериями, пока еще могут сильно отличаться от оценок релевантности, выставленных экспертами.

На данный момент известны три основных способа, с помощью которых происходит отбор и ранжирование вариантов.

Известен способ выбора и ранжирования вариантов, который заключается в том, что каждому варианту присваивается абсолютная оценка степени "важности", используя значения по нескольким критериям. Наиболее распространенным способом является построение регрессии.

Кроме того, для ранжирования вариантов может быть использован метод классификации McRank, суть которого заключается в вычислении для каждой пары "запрос-документ" так называемой "ожидаемой релевантности" как функции от вероятностей принадлежности к классам релевантности, полученных в результате классификации. В результате вычисления "ожидаемой релевантности" ранжирование пары "запрос-документ" в рамках каждого запроса происходит по убыванию "ожидаемой релевантности" (Л.Пинг, К.Дж.С.Берджес, К.By - McRank: Обучение ранжированию с использованием многофакторного анализа и градиентного ускорения перебора. НИПС. Карран ассошиэйтс.2007 - [Ping L., Burges C.J.С, Wu Q.McRank: Learning to Rank Using Multiple Classification and Gradient Boosting. NIPS. Curran Associates, 2007]).

Известен способ выбора альтернатив, который заключается в попарном сравнении двух вариантов с целью выявления лучшего из них. На основе формирования таких отношений происходит построение порядка, с помощью которого происходит выбор вариантов.

Примером известного способа является метод опорных векторов, который заключается в переводе исходных векторов в пространство более высокой размерности и поиске разделяющих гиперплоскостей с максимальным зазором в этом пространстве (К.Кортес, Вапник В.Н., Метод опорных векторов, Журнал "Machine Learning", 20, 1995 - [С.Cortes, Vapnik V.N.; "Support-Vector Networks", Machine Learning, 20, 1995]), а также другие методы, такие как:

- RankNet (поисковая система Microsoft Bing, К.Дж.С.Берджес, Т.Шейкд и др. "Обучение ранжированию с использованием градиентного спуска", ИСМЛ, 2005: 89-96 - [Christopher J. С.Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, Gregory N. Hullender: Learning to rank using gradient descent. ICML 2005: 89-96]), суть которого заключается в использовании «нейронной сети» и вероятностной функции стоимости для ранжирования результатов поиска,

- RankBoost (Й.Фреунд, Р.Иер, Р.Е.Шапаэ и Й.Сингер. Эффективный алгоритм ускорения перебора для комбинированных предпочтений, Журнал "Machine Learning Research", 4:933-969, 2003 - [Y.Freund, R.Iyer, R.E. Schapire, and Y.Singer. An efficient boosting algorithm for combining preferences. J. Mach. Learn. Res., 4:933-969, 2003]), в основе которого лежит процедура последовательного построения композиции алгоритмов машинного обучения для классификации пар документов.

- FRank (М.Тсаи, Т.-Я.Лью и др. Frank: Метод ранжирования с использованием функции потери точности, СИГИР 2007 - [М.Tsai, T.-Y.Liu, et al. FRank: A Ranking Method with Fidelity Loss, SIGIR 2007]), являющийся модификацией метода RankNet, однако в качестве функции стоимости вместо значений энтропии используется функция точности распределений, и другие.

Известен способ выбора альтернатив, который заключается в списочном сравнении вариантов. При этом фильтрация всего множества альтернатив выполняется согласно заданным правилам.

Примерами этого способа могут служить:

1. Метод построения деревьев, минимизация штрафной функции ListNet, в котором вводится вероятностное пространство на множестве перестановок. Функция энтропии на введенном пространстве используется как функция потерь. (Чже Цао, Тао Кин, Тай-Янь Лю, Мин-Фенг Тсаи и Ханг Ли. Обучение ранжированию: От попарного к списочному подходу, 2007 - [Zhe Сао, Тао Qin, Tie-Yan Liu, Ming-Feng Tsai, and Hang Li. Learning to Rank: From Pairwise Approach to Listwise Approach, 2007]),

2. Метод списочного сравнения вариантов RankCosine, который использует функцию потерь, основанной на сходстве косинуса угла между проранжированным списком и исходным списком обучающей выборки, для ранжирования результатов поиска (Т.Кин, Х.-Д.Чжанг, М.-Ф.Тсаи, Д.-С.Ванг, Т.-Я.Лью, X.Ли: Запросо-зависимые функции потерь для информационного поиска. Журнал "Inf. Process. Manage". 44(2): 838-855, 2008 - [Т.Qin, X.-D.Zhang, M.-F.Tsai, D.-S.Wang, T.-Y.Liu, H.Li: Query-level loss functions for information retrieval. Inf. Process. Manage. 44(2): 838-855, 2008)],

3. Метод ранжирования AdaRank, в котором для построения ранжирующей функции используется алгоритм машинного обучения AdaBoost, производящий построение линейной комбинации классификаторов для улучшения работы ранжирующей модели. (Ю.Ху, X.Ли. AdaRank: алгоритм ускоренного перебора для информационного поиска. СИГИР 2007 - [Xu, J., Li, Н.: AdaRank: a boosting algorithm for information retrieval. SIGIR 2007]),

4. Метод ранжирования SoftRank, суть которого заключается в прямой оптимизации негладких метрик ранжирования, (Майке Тэйлор, Джон Гуйвер, Стивен Робертсон, Том Минка. SoftRank: Оптимизация негладких метрик, 2008 - [Michael Taylor, John Guiver, Stephen Robertson, and Tom Minka. SoftRank: Optimising Non-Smooth Rank Metrics, 2008]) и другие.

Все эти методы показывают достаточно высокую точность в своих узкоспециальных областях.

Недостатками известных способов отбора вариантов являются:

- использование сложных процедур отбора в работе с большими объемами данных, что ведет к значительному возрастанию вычислительной сложности;

- невысокая точность при отборе и ранжировании вариантов с использованием большого числа критериев или/и при наличии большого числа вариантов.

Как правило, на больших объемах данных используется способ поиска по деревьям решений. Он заключается в построении последовательности пороговых процедур, с помощью которых осуществляется выбор вариантов.

Недостатком способа поиска по деревьям решений является низкая достоверность результатов, так как выбор пороговых процедур в качестве способа отбора и ранжирования вариантов не всегда обоснован (эффективен). Кроме того, для отбора или ранжирования вариантов может быть одновременно использован не один критерий, а целая группа (их комбинация), что не учитывается в методе поиска по деревьям решений. Зачастую произвести отбор или ранжирование всего списка вариантов по какому-то одному критерию (нескольким критериям) невозможно. В связи с этим для ранжирования вариантов с высокой точностью необходимо выполнить построение большого количества таких деревьев, а результаты их работы необходимо агрегировать.

Известны способы по патенту РФ №2435212 «Сбор данных о пользовательском поведении при веб-поиске для повышения релевантности поиска», патенту РФ №2443015 «Функции ранжирования, использующие модифицированный байесовский классификатор запросов с инкрементным обновлением», по патенту РФ №2367997 «Усовершенствованные системы и способы ранжирования документов на основании структурно взаимосвязанной информации», которые заключаются в сборе дополнительной информации, а именно в использовании байесовского классификатора, сборе информации о поведении пользователей, информации о структурных взаимосвязях документов, с помощью которой осуществляется отбор и ранжирование вариантов. Недостатком известных способов является усложнение существующих методов отбора и ранжирования вариантов за счет добавления новых критериев.

Наиболее близким по технической сущности и достигаемому результату является способ вычисления временного веса для результата поиска, который заключается в том, что идентифицируют пользовательское событие, соответствующее результату поиска, причем пользовательское событие имеет начальное время события, время окончания события и длительность события; определяют текущее время и определяют временной вес для этого результата поиска на основании временной близости текущего времени к пользовательскому событию. В способе предполагается, что временной вес изменяется со временем, увеличивается экспоненциально по мере того, как текущее время приближается к начальному времени события, является постоянным в течение длительности события, достигает пика в момент времени в течение длительности события и уменьшается экспоненциально, когда текущее время удаляется от времени окончания события. Способ предназначен для поиска информации в сети Интернет с использованием временного веса для ранжирования результатов поиска. (Патент РФ №2435213, МПК G06F 17/30, опубл. 27.11.2011 г.).

Недостатком известного способа, как и аналогичных существующих технологий поиска по запросу в сети Интернет, является то, что в них, как правило, применяются "грубые" алгоритмы выбора и ранжирования, т.е. алгоритмы с линейной вычислительной сложностью О(n), где n - число вариантов. Как правило, эта сложность достигается тем, что разработанные правила выбора и ранжирования упрощаются (точнее говоря, огрубляются), чтобы обеспечить приемлемый уровень сложности. При этом результат, достигаемый с помощью таких способов, получается более низкого качества.

Техническая задача, на решение которой направлено заявляемое изобретение, состоит в создании нового способа для более качественного отбора и ранжирования эффективных вариантов, обеспечивающего высокую скорость отбора и высокую точность результатов.

Поставленная техническая задача решается тем, что согласно предложенному изобретению способ отбора и ранжирования эффективных вариантов по первому варианту реализации заключается в том, что предварительно формируют критерии оценки релевантности варианта поисковому запросу и задают конечное число вариантов или набор процедур выбора и ранжирования вариантов и последовательность их выполнения для отбора вариантов, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов по релевантности критериям поискового запроса, на основании которой ранжируют варианты путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов по методу суперпозиции по меньшей мере в два этапа, если количество вариантов в оставшейся группе вариантов соответствует предварительно заданному конечному числу вариантов для отбора или использованы все заданные процедуры выбора, отбор вариантов и их ранжирование прекращают и варианты из отобранной группы оценивают как наиболее эффективные, если количество вариантов в оставшейся группе вариантов не соответствует предварительно заданному конечному числу вариантов для отбора, отбор вариантов и их ранжирование продолжают, при этом отбор вариантов, их ранжирование и исключение осуществляют до момента, пока не будет достигнуто заданное число вариантов или пока не будут использованы все заданные процедуры выбора и отобранную группу вариантов оценивают как наиболее эффективную.

Заявляемый способ по первому варианту реализации характеризуется следующими дополнительными существенными признаками:

- на первом этапе осуществляют отбор вариантов при наличии их большого числа по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью O(n), и исключают группу вариантов, которые имеют самый низкий ранг;

- на втором и последующих этапах формируют критерии оценки поискового запроса, на основании которых ранжируют варианты и осуществляют отбор вариантов из оставшегося обработанного па предыдущем этапе массива по методу суперпозиции с использованием методов, вычислительная сложность которых не ниже квадратичной O(n2) и исключают следующую группу вариантов с меньшим рангом.

Поставленная техническая задача решается тем, что согласно предложенному изобретению способ отбора и ранжирования эффективных вариантов по второму варианту реализации заключается в том, что предварительно формируют критерии оценки релевантности варианта поисковому запросу и задают конечное число вариантов для отбора, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов по релевантности критериям поискового запроса, на основании которой ранжируют варианты путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов по методу суперпозиции по меньшей мере в два этапа, если количество вариантов в оставшейся группе вариантов соответствует предварительно заданному конечному числу вариантов для отбора, отбор вариантов и их ранжирование прекращают и варианты из отобранной группы оценивают как наиболее эффективные, если количество вариантов в оставшейся группе вариантов не соответствует предварительно заданному конечному числу вариантов для отбора, отбор вариантов и их ранжирование продолжают, при этом отбор вариантов, их ранжирование и исключение осуществляют до момента, пока не будет достигнуто заданное число вариантов, отобранную группу вариантов оценивают как наиболее эффективную.

Заявляемый способ по второму варианту реализации характеризуется следующими дополнительными существенными признаками:

- на первом этапе осуществляют отбор вариантов при наличии их большого числа по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью O(n), и исключают группу вариантов, которые имеют самый низкий ранг;

- на втором и последующих этапах формируют критерии оценки поискового запроса, на основании которых ранжируют варианты и осуществляют отбор вариантов из оставшегося обработанного на предыдущем этапе массива по методу суперпозиции с использованием методов, вычислительная сложность которых не ниже квадратичной O(n2) и исключают следующую группу вариантов с меньшим рангом;

в способе дополнительно задают набор процедур выбора и ранжирования вариантов и последовательность их выполнения.

Поставленная техническая задача решается тем, что согласно предложенному изобретению, способ отбора и ранжирования эффективных вариантов по третьему варианту реализации заключается в том, что предварительно формируют критерии оценки релевантности варианта поисковому запросу и задают набор процедур выбора и ранжирования вариантов и последовательность их выполнения для отбора вариантов, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов по релевантности критериям поискового запроса, на основании которой ранжируют варианты путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов по методу суперпозиции, по меньшей мере, в два этапа, отбор вариантов, их ранжирование и исключение осуществляют до момента, пока не будут использованы все заданные процедуры выбора и отобранную группу вариантов оценивают как наиболее эффективную.

Заявляемый способ но третьему варианту реализации характеризуется следующими дополнительными существенными признаками:

- на первом этапе осуществляют отбор вариантов при наличии их большого числа по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью O(n), и исключают группу вариантов, которые имеют самый низкий ранг

- на втором и последующих этапах формируют критерии оценки поискового запроса, на основании которых ранжируют варианты и осуществляют отбор вариантов из оставшегося обработанного на предыдущем этапе массива по методу суперпозиции с использованием методов, вычислительная сложность которых не ниже квадратичной 0(п2) и исключают следующую группу вариантов с меньшим рангом.

- дополнительно задают конечное число вариантов для отбора, оцениваемых как наиболее эффективные;

- для отбора наиболее эффективной группы вариантов задают дополнительные методы выбора и ранжирования и последовательность их выполнения и повторно осуществляют отбор и ранжирование.

Технический результат, достижение которого обеспечивается реализацией всей заявляемой совокупности существенных признаков способа, состоит в повышении скорости и точности (достоверности) отбора эффективных вариантов в поисковых, рекомендательных системах за счет возможности, используя принцип суперпозиции, регулировать сложность процедур выявления эффективных вариантов.

Сущность изобретения поясняется фиг.1, на которой представлена схема последовательности операций при осуществлении заявляемого способа, где:

1 - исходный набор вариантов (множество различных вариантов);

2 - процедура исключения неэффективных объектов на первом этапе с использованием приближенных методов;

3 - набор вариантов, оставшихся после первого этапа отбора;

4 - отсечение неэффективных вариантов с помощью процедур исключения;

5 - последовательное применение процедур исключения неэффективных объектов с использованием приближенных методов;

6 - подмножество вариантов, не содержащее неэффективные варианты;

7 - операция ранжирования полученной на шаге 6 группы вариантов с использованием как приближенных, так и точных методов;

8 - операция присвоения всем неэффективным вариантам самого низкого ранга и добавление этих вариантов в итоговый список после ранжированных вариантов;

9 - предоставление итоговой упорядоченной группы вариантов конечному потребителю;

10 - группы неэффективных вариантов, отсеченных с использованием последовательной суперпозиции процедур исключения.

Предложенный способ основан на методе суперпозиции, который заключается в последовательном исключении предыдущих вариантов с помощью некоторых процедур, которые на каждом этапе исключения могут быть различными.

Заявляемый способ осуществляется следующим образом (фиг.1).

Существует или формируется большой набор вариантов 1, в котором могут находиться неэффективные варианты.

Термин «большой набор вариантов (поисковых элементов)» рассматривается в рамках концепции «Большие данные» (Big Data), появившейся в связи с развитием информационных технологий и включающей в себя подходы к обработке огромных объемов разнородной информации.

Под большим набором вариантов (поисковых элементов) в рамках этой концепции понимается структурированный или неструктурированный набор данных огромного объема и значительного многообразия.

Для того чтобы исключить неэффективные варианты и отобрать наиболее эффективные варианты предварительно формируют критерии оценки релевантности варианта (поискового элемента) поисковому запросу и, при необходимости, задают конечное число вариантов (поисковых элементов) для отбора, оцениваемых как наиболее эффективные (как максимально соответствующие критериям оценки релевантности поисковому запросу). Далее осуществляют оценку каждого из вариантов (поисковых элементов) по релевантности критериям поискового запроса, на основании которой ранжируют варианты (поисковые элементы) путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания. Отбор и ранжирование вариантов (поисковых элементов) осуществляют последовательно по методу суперпозиции по меньшей мере в два этапа.

Способ может быть определен иначе - может быть задан набор используемых методов выбора и ранжирования и последовательность их применения.

На первом этапе осуществляют отбор вариантов из большого числа (поз.2 фиг.1) по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью O(n).

Для данной операции могут быть использованы известные методы, характеризующиеся линейной вычислительной сложностью O(n), такие как, например, правило относительного большинства, правило Борда, правило надпорогового выбора и другие. Наиболее полный список правил выбора приведен в Приложении 1.

В результате формируют две группы вариантов: группу вариантов 10, имеющих самый низкий ранг, и группу вариантов 3, подлежащих дальнейшему анализу.

Группу вариантов 10, которые имеют самый низкий ранг, исключают (поз.4 фиг.1).

На следующем этапе формируют критерии оценки поискового запроса, на основании которых ранжируют варианты. Отбор вариантов из оставшегося обработанного массива осуществляют по методу суперпозиции (поз.5 фиг.1) с использованием методов, вычислительная сложность которых не ниже квадратичной O(n2).

Для данной операции могут быть использованы известные методы, вычислительная сложность которых не ниже квадратичной O(n2), такие, как, например, минимальное недоминируемое множество, правило Ричелсона или правила, основанные на построении мажоритарной или турнирной матрицы (см. Приложение 1).

Отбор вариантов и их ранжирование прекращают и варианты (поисковые элементы) из отобранной группы оценивают как наиболее эффективные или перспективные, когда будут выполнены все используемые (заданные) методы выбора и ранжирования или если количество вариантов в оставшейся группе вариантов соответствует предварительно заданному конечному числу вариантов (поисковых элементов) для отбора. Отбор вариантов и их ранжирование может быть осуществлено повторно с помощью задания дополнительных способов выбора и ранжирования, а также последовательности их выполнения.

В ином случае отбор и ранжирование продолжают осуществлять, как описано выше (поз.7 и 8 фиг.1). То есть группу вариантов 6 ранжируют с использованием операций ранжирования 7, при необходимости можно добавлять (поз.8 фиг.1) к ней варианты из группы неэффективных вариантов 10. Отбор вариантов (поисковых элементов), их ранжирование и исключение осуществляют (поз.9 фиг.1) до момента, пока не будет достигнуто заданное число вариантов (поисковых элементов) или пока не будут выполнены все используемые (заданные) методы выбора и ранжирования, а отобранную группу вариантов 9 (поисковых элементов) оценивают как наиболее эффективные (перспективные). Таким образом, происходит отбор и ранжирование эффективных вариантов, их ранжирование и предоставление этих вариантов конечному потребителю.

Суперпозиционный подход используется тогда, когда нельзя однозначно определить по одному критерию, какие варианты являются эффективными, а какие нет. Отличительной особенностью способа является возможность выявлять при наличии большого числа критериев из большого числа вариантов те варианты, которые являются эффективными, а также возможность регулировать вычислительную сложность предложенного способа. Заявляемый способ позволяет перейти от сложных механизмов выявления эффективных вариантов к составным, которые представляют собой комбинацию или суперпозицию более простых процедур. Результаты выполнения предыдущих этапов отбора и ранжирования обрабатывают на следующих этапах способа.

Кроме того, в заявляемом способе для ранжирования вариантов может быть одновременно использован не один критерий, а целая группа критериев (их комбинация), что не учитывается, например, в известном методе поиска по деревьям решений, который использует простейшие пороговые процедуры, выбор которых не всегда обоснован.

В отличие от известных методов метод суперпозиции является достаточно гибким и позволяет варьировать число этапов в способе отбора.

В суперпозиционном подходе исключается возможность потерять эффективные варианты в случае использования приближенных методов. После последовательной композиции этапов исключения происходит отбор и ранжирование оставшихся вариантов. Все неэффективные варианты, которые были исключены до процедуры ранжирования, будут иметь низший (наихудший) ранг и будут выбираться (предлагаться) для решения задач в самую последнюю очередь.

Под приближенными методами, которые используются для сокращения числа вариантов с высокой скоростью, понимаются правила выбора и ранжирования с линейной вычислительной сложностью O(n). Такие правила (методы) должны использовать (считывать) значения параметров каждого варианта (альтернативы) только такое число раз к, которое не зависит от числа вариантов (альтернатив) n, и значительно меньше, чем n.В самом быстром (идеальном) случае для правила со сложностью О(n), каждый вариант используется только один раз. Правило имеет возможность определить, эффективен вариант или нет, основываясь только на данных одного этого варианта, не сравнивая его с каждым из остальных вариантов. Например, для правила отбрасывания неэффективных вариантов, со значениями "ниже среднего", по какому- либо параметру (по которому значения чем выше, тем лучше), требуется считать значение каждого варианта только 2 раза: первый раз, чтобы подсчитать среднее, и второй раз, чтобы определить, выше или ниже значение этого варианта, чем среднее. Это правило относится к правилам с линейной вычислительной сложностью O(n).

Таким образом, использование методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью O(n) обеспечивает значительное повышение скорости отбора эффективных вариантов в поисковых, рекомендательных системах.

Однако изначально на всем объеме вариантов достаточно затруднительно использовать тонкие (точные) методы в силу наличия большого количества вариантов. При применении приближенных процедур отсечения неэффективных вариантов количество различных вариантов уменьшается, что, в конце концов, приводит к возможности использовать более тонкие методы для отбора и ранжирования оставшихся вариантов.

Под тонкими (точными) методами, которые используются при наличии небольшого числа вариантов, понимаются правила выбора и ранжирования, вычислительная сложность которых зависит исключительно от количества раз использования каждого варианта. Существует правила, использующие попарные "расстояния" между вариантами (альтернативами), в специальных шкалах. Такие правила должны для каждого варианта перебрать все остальные варианты, т.е. произвести (n умножить на n) действий, вычислительная сложность здесь квадратичная. Существуют также правила, сравнивающие каждый вариант со всевозможными наборами остальных вариантов, чтобы более точно определить позицию данного варианта по отношению к остальным. Вычислительная сложность таких правил еще выше. Можно сказать, что правила со сложностями, начиная с квадратичной O(n2), не могут применяться на полном наборе вариантов (исчисляемых миллионами) при решении задачи поиска и ранжирования в сети Интернет, и в сходных задачах в других сферах деятельности, так как вычислительная сложность этих правил сильно зависит от количества имеющихся в наборе вариантов.

Таким образом, использованием методов, вычислительная сложность которых не ниже квадратичной O(n2) обеспечивает значительное повышение точности (достоверности) отбора эффективных вариантов в поисковых, рекомендательных системах.

Преимуществом способа является также то, что появляется возможность регулировать вычислительную сложность процедуры выявления эффективных вариантов. Это значит, что если на большом объеме данных применение некоторых процедур требовало огромных вычислительных ресурсов, то после последовательного исключения вариантов те же процедуры на оставшемся подмножестве могут работать достаточно быстро. Другими словами, установив некоторый предел по количеству вычислительных ресурсов, используемых на выполнение способа, можно установить количество стадий, с помощью которых можно произвести отсечение заведомо неэффективных вариантов с использованием быстрых приближенных методов, после выполнения которых можно использовать достаточно трудоемкие процедуры, выявляющих эффективные варианты с достаточно высокой точностью. В этом и заключается управление вычислительной сложностью способа.

Заявляемый способ может быть также применен в задаче обучения ранжированию, то есть задаче выбора вариантов с заранее известными оценками их полезности по критериям. Способ позволяет формировать по заранее известной степени полезности (эффективности) одних вариантов правила их отбора и ранжирования (набор применяемых методов выбора и ранжирования, а также последовательность их применения), в соответствии с которым может быть произведен отбор и ранжирование других вариантов, о степени полезности (эффективности) которых ничего не известно.

Заявляемый способ может быть осуществлен с использованием известных аппаратных и программных средств. Реализация заявляемого способа включает:

1. Сбор и хранение данных/

2. Обработка данных, отбор и ранжирование вариантов.

3. Предоставление результатов пользователю.

Сбор и хранение данных. На данной стадии происходит сбор и хранение необходимой информации о существующих вариантах. Информация о вариантах может собираться из существующих источников данных, например, из различных существующих информационных систем, веб-сайтов, веб-сервисов, других серверов данных, файлов на ЭВМ, т.е. из всех источников, хранящих информацию о вариантах в пригодном для дальнейшей обработки формате. Сбор данных может быть произведен с использованием существующих программных средств, производящих извлечение данных из внешних источников (например, ETL-системы или средства сбора содержимого веб-страниц в сети Интернет), или реализован на ЭВМ с использованием любого языка программирования, в частности, языка программирования C, C++, C#, Java, Python, PHP и многих других. Хранение информации может осуществляться как на сервере или группе серверов с использованием существующих платформ, осуществляющих хранение данных, так и на любом носителе информации, с которого возможно производить дальнейшее чтение имеющейся информации. Также хранение информации может осуществляться непосредственно в оперативной памяти ЭВМ в случае, когда нет необходимости производить постоянное хранение информации.

Обработка данных, включающая согласно заявляемому способу отбор и ранжирования вариантов с использованием приближенных и точных методов, реализуется с использованием ЭВМ, которая производит ранжирование вариантов и выявление наиболее эффективных из них. Этап обработки данных может быть произведен как на сервере, так и на самой ЭВМ пользователя.

После выполнения этапа обработки данных полученные результаты предоставляются конечному пользователю в любом пригодном для него формате. Результаты выполнения могут храниться на сервере, других носителях информации, с которых возможно производить ее дальнейшее чтение, либо могут быть предоставлены на экран ЭВМ пользователя напрямую с использованием веб-браузера или любого другого программного средства, с помощью которого осуществляется просмотр информации.

Примеры осуществления способа.

Пример 1

Задача поиска релевантных страниц в сети Интернет с отбором и ранжированием на основе принципа суперпозиции

Задача поиска релевантных страниц в сети Интернет, ранжирование на основе идеи суперпозиции может реализовываться следующим образом. Сначала быстрыми (приближенными) методами исключают заведомо нерелевантные страницы. Этими нерелевантными страницами могут быть, например, те страницы, которые не принадлежат заданной тематике, содержат спам, вирусы, рекламу, нежелательный для пользователя контент, фишинг (интернет-мошенничество) и другое. Затем на оставшемся значительно меньшем наборе страниц применяются более тонкие (точные) методы ранжирования, требующие, однако, больших вычислительных ресурсов (медленные). Упомянутые выше нерелевантные страницы никогда не могут быть релевантными запросу пользователя, а это значит, что их использование в более трудоемких методах избыточно и просто не нужно. В данном примере суперпозиция некоторого набора быстрых, но приближенных методов (применяемых для отсечения только самых нерелевантных страниц) и некоторого набора точных методов (применяемых для окончательного ранжирования не большого числа альтернатив) дает выигрыш в скорости и точности (релевантности) окончательного ранжирования. В частности, для нерелевантных страниц нет необходимости проводить детальное ранжирование, достаточно им всем присвоить один и тот же ранг (последнее место в ранжировании).

Таблица 1
Сравнение точной процедуры выбора (Правила Парето) и четырехшагового способа, основанного на идее суперпозиции
Количество слов из запроса в заголовке документа Количество слов из запроса во всем документе Булева модель (наличие всех слов запроса в документе) Правило Парето Модель суперпозиции
Этап 1. Надпорог овый выбор по заголовку Этап 2. Надпороговый выбор по документу Этап 3. Надпороговый выбор по булевой модели Этап 4. Парето
1 1 6 1 0 1 1 1 0
2 2 10 1 1 1 1 1 1
3 4 7 0 0 1 1 0 0
4 0 3 1 0 0 0 0 0
5 3 9 1 1 1 1 1 1
6 4 8 1 1 1 1 1 1
7 1 1 0 0 1 1 0 0
8 0 0 0 0 0 0 0 0
9 1 0 0 0 1 0 0 0
10 0 0 0 0 0 0 0 0
11 0 0 0 0 0 0 0 0
12 0 0 0 0 0 0 0 0
13 0 0 0 0 0 0 0 0
14 0 0 0 0 0 0 0 0
15 0 2 0 0 1 0 0 0
16 0 0 0 0 0 0 0 0
17 0 1 0 0 0 0 0 0
18 0 0 0 0 0 0 0 0
19 0 0 0 0 0 0 0 0
20 0 0 0 0 0 0 0 0
21 0 0 0 0 0 0 0 0
22 0 0 0 0 0 0 0 0
23 0 1 0 0 0 0 0 0
24 0 0 0 0 0 0 0 0
25 0 0 0 0 0 0 0 0
26 0 0 0 0 0 0 0 0
27 0 0 0 0 0 0 0 0
28 0 0 0 0 0 0 0 0
29 0 1 0 0 0 0 0 0

В таблице 1 приведен простейший пример использования двух способов выбора вариантов - правила Парето и четырехшагового способа отбора, основанного на идее суперпозиции. В задаче необходимо определить, какие из вариантов являются наиболее релевантными (подходящими) введенному запросу пользователя. Каждый вариант оценивается по трем критериям: количество слов из запроса в заголовке документа, количество слов из запроса во всем документе, булева модель (наличие всех слов запроса в документе). В примере выбор производится из 29 вариантов.

В случае, если использовать обычное правило Парето, то релевантными документами будут являться документы №2, 5, 6. При использовании правила Парето каждый вариант должен быть сопоставлен со всеми остальными вариантами, т.е. каждый из 29 вариантов должен быть сопоставлен друг с другом. Это означает, что чем больше вариантов находится в выборке, тем больше вычислительная сложность этого правила, что ведет к необходимости использования более простых (приближенных) правил выбора.

Однако правило Парето может быть применено, если использовать способ отбора и ранжирования эффективных вариантов, основанный на идее суперпозиции. В таблице 1 приведен способ отбора в четыре этапа, который заключается в последовательном применении трех надпороговых правил, после чего применяется правило Парето.

На первом этапе происходит исключение всех вариантов (документов), в заголовке которых не находится ни одного слова из запроса. Таким образом, число вариантов сокращается с 29 до 8.

На втором этапе происходит исключение тех вариантов, у которых в основной части документа не было найдено ни одного слова из запроса. Тогда число вариантов сокращается с 8 до 6. После этого выбираются только те документы, в которых находятся все слова из запроса. В результате число вариантов сокращается до 4. После этого осуществляют применение правила Парето по оставшимся вариантам, и в итоговый выбор входит только 3 варианта (документа) - №2, 5, 6.

В данном примере результаты обоих способов совпадают. Однако вычислительная сложность правила Парето значительно выше. Поэтому в случае, если число вариантов небольшое, выбор способа отбора и ранжирования не принципиален (не имеет значения). Однако в условиях, когда число вариантов достигает нескольких миллионов, необходимо использовать второй способ, основанный на идее суперпозиции, т.к. он позволяет комбинировать простые и сложные правила выбора, что уменьшает вычислительную сложность способа.

Пример 2

Ведение маркетинговой кампании в социальных сетях

В ряде моделей для представления наиболее интересного и востребованного предложения участникам социальных сетей необходимо сегментировать группы пользователей по их общим интересам или по интенсивности обмена информацией между ними. В этом случае, например, пороговое отсечение по правилу "не более одного контакта за последний год" (для определенного набора товаров и услуг) позволяет сразу сузить число вариантов внутри группы до уровня, приемлемого для более сложных алгоритмов. Разумеется, наличие более одного контакта за год не подразумевает общность интересов пользователей, т.е. отсекаются заведомо неэффективные варианты группировки (сегментации) участников социальных сетей по их интересам, с одновременным и резким снижением объема группы.

Таким образом, представленный способ позволяет с высокой точностью производить отбор и ранжирование вариантов, особенно при наличии большого количества вариантов, характеризуемых большим набором показателей, так как он позволяет производить комбинирование приближенных и точных процедур.

Заявляемый способ может быть использован при отборе эффективных вариантов в поисковых, рекомендательных системах, системах поддержки принятия решений, сетях Интернет, системах автоматической классификации пакетов данных и в других смежных областях.

Кроме того, изобретение может быть использовано при решении задачи обучения ранжированию, то есть задаче выбора вариантов с заранее известными оценками их полезности по критериям, например, при оценке эффективности работы предприятий, торговых точек и других объектов в смежных областях.

Приложение 1. Список правил выбора, приведенных в работе Ф.Т.Алескерова, Э. Курбанова "О степени манипулируемости правил коллективного выбора", Автоматика и телемеханика, 1998, №10, 134-146.

1. Правило относительного большинства (Plurality rule)

В выбор входят альтернативы, которые являются лучшими для наибольшего числа критериев, т.е.

,

где .

Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

2. Одобряющее голосование (Approval voting rule)

Введем

,

т.е. означает число критериев, у которых альтернатива a стоит не ниже q-го места в их упорядочении. Таким образом, если q=1, тогда a - это лучшая альтернатива для критерия i; если q=2, тогда a - либо первая, либо вторая наилучшая альтернатива, и т.д. Число q будем называть уровнем процедуры.

Одобряющее голосование уровня q определяется следующим образом:

,

т.е. выбираются альтернативы, которые находятся среди q лучших для максимального числа критериев.

Очевидно, что одобряющее голосование - это обобщение правила относительного большинства (случай q=1).

Данное правило для выбора имеет линейную вычислительную сложность, для ранжирования вычислительная сложность правила зависит от значения q. При q<<n вычислительная сложность правила линейная, при q n вычислительная сложность правила квадратичная.

3. Пороговое правило (Threshold rule)

Пусть ν1(x) - число критериев, для которых альтернатива x является наихудшей в их упорядочениях, ν2(x) - число критериев, для которых альтернатива x является второй наихудшей, и так далее, νm(x) - число критериев, для которых альтернатива x является наилучшей. Затем альтернативы упорядочиваются лексикографически. Говорят, что альтернатива x V - доминирует альтернативу y если ν1(x)< ν1(y) или, если существует k≤m такое, что νi(x)= νi(y), i=1, …, k-1, и νk(x)<k(y). Другими словами, в первую очередь сравниваются количества последних мест в упорядочениях для каждой альтернативы, в случае, когда они равны, идет сравнение количества предпоследних мест, и так далее. Выбором являются альтернативы, недоминируемые по V.

Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

4. Правило Борда (Borda rule)

Каждой альтернативе x∈A ставится в соответствие число r i ( x , P ) равное мощности множества альтернатив, худших, чем x в критерии P i P , то есть r i ( x , P ) = | L i ( x ) | = | { b A : x P i b } | . Сумма данных значений для i∈N называется рангом Борда для альтернативы x,

В выбор входят альтернативы с максимальным рангом

.

Данное правило для выбора имеет линейную вычислительную сложность, для ранжирования вычислительная сложность правила сильно зависит от входных данных и в худшем случае является квадратичной.

5. Процедура Блэка

Если существует победитель Кондорсе, то он объявляется коллективным выбором, иначе используется правило Борда.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

6. Процедура Кумбса.

Исключается вариант, который считают худшим максимальное число избирателей. Затем профиль сужается до нового множества X и процедура продолжается до тех пор, пока не останутся только неисключаемые варианты. Отметим здесь разницу между правилом Кумбса и системой передачи голосов. В правиле Кумбса вычеркиваются худшие варианты, в то время как в системе передачи голосов вычеркиваются варианты, лучшие для минимального числа избирателей.

Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

7. Процедура Хара

Для каждой альтернативы подсчитывается количество первых мест в упорядочениях по критериям. Далее из голосования выбывают альтернативы с наименьшим количеством первых мест.Процедура повторяется, пока выбор остается непустым.

Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

8. Обратное правило относительного большинства

В выбор входят альтернативы, которые являются худшими для наименьшего числа критериев.

Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

9. Первое правило Копланда

Для каждой альтернативы считаются два показателя: сумма количеств альтернатив, которые хуже заданной по каждому критерию, и сумма количеств альтернатив, которые лучше заданной по каждому критерию. В коллективный выбор входят альтернативы с наибольшей разностью этих двух показателей.

Данное правило для выбора имеет линейную вычислительную сложность, для ранжирования вычислительная сложность правила сильно зависит от входных данных и в худшем случае является квадратичной.

10. Обратная процедура Борда (с передачей голосов)

Для каждой альтернативы подсчитывается ранг Борда. Далее альтернатива с наименьшим рангом выбывает. Ранги Борда пересчитываются для множества альтернатив без выбывшей альтернативы. Процедура повторяется, пока выбор непустой.

Для выбора вычислительная сложность правила в худшем случае квадратичная. Для ранжирования вычислительная сложность правила не ниже квадратичной.

11. Правило Нансона

Подсчитывается ранг Борда для всех вариантов. Затем подсчитывается средняя оценка Борда и исключаются только те варианты x, для которых оценка Борда ниже средней. Затем строится множество X=A\{x}, и процедура применяется к суженному профилю /X. Процедура продолжается до тех пор, пока не останутся только неисключаемые варианты. Для выбора вычислительная сложность правила в худшем случае квадратичная. Для ранжирования вычислительная сложность правила не ниже квадратичной.

12. Минимальное доминирующее множество

Множество альтернатив Q является доминирующим тогда и только тогда, когда любая альтернатива из Q доминирует любую альтернативу вне Q по мажоритарному отношению.

Доминирующее множество является минимальным, если ни одно из его собственных подмножеств не является доминирующим. Коллективным выбором является минимальное доминирующее множество, если таковое существует одно, или их объединение, если таковых несколько. Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

13. Минимальное недоминируемое множество

Множество альтернатив Q является недоминируемым тогда и только тогда, когда не существует альтернативы вне Q, которая доминирует какую-либо альтернативу из множества Q.

Недоминируемое множество является минимальным, если ни одно из его собственных подмножеств не является недоминируемым. Коллективным выбором является минимальное недоминируемое множество, если таковое существует одно, или их объединение, если таковых несколько. Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

14. Минимальное слабоустойчивое множество

Множество альтернатив Q является слабоустойчивым тогда и только тогда, когда из существования альтернативы у вне Q, доминирующей альтернативу x из Q, следует существование альтернативы z из Q такой, что z доминирует У-

Слабоустойчивое множество является минимальным, если ни одно из его собственных подмножеств не является слабоустойчивым. Коллективным выбором является минимальное слабоустойчивое множество, если таковое существует одно, или их объединение, если таковых несколько.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

75. Правило Фишберна

Построим новое бинарное отношение у, в котором х доминирует у тогда и только тогда, когда верхний контур альтернативы х является собственным подмножеством верхнего контура альтернативы у.

Коллективным выбором будет набор альтернатив, недоминируемых по отношению у.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

16. Непокрытое множество I.

Построим новое бинарное отношение 5, в котором x доминирует у тогда и только тогда, когда нижний контур альтернативы у является собственным подмножеством нижнего контура альтернативы x.

Коллективным выбором будет набор альтернатив, недоминируемых по отношению 8.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

17. Непокрытое множество II

Альтернатива x B - доминирует альтернативу y, если x доминирует y по мажоритарному отношению и верхний контур альтернативы x является подмножеством верхнего контура альтернативы y. В коллективный выбор входят альтернативы, недоминируемые по отношению B. Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

18. Правило Ричелсона

Строится новое бинарное отношение σ, в котором x доминирует y тогда и только тогда, когда

- Нижний контур y является подмножеством нижнего контура x

- Верхний контур x является подмножеством верхнего контура y

- В одном из двух указанных выше случаев вхождение происходит как «собственное подмножество»

В коллективный выбор входят недоминируемые по о альтернативы.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

19. Первое правило Копланда

В коллективный выбор входят альтернативы с максимальной разницей мощностей нижнего контура и верхнего контура.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

20. Второе правило Копланда

В коллективный выбор входят альтернативы с максимальной мощностью нижнего контура.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

21. Третье правило Копланда

В коллективный выбор входят альтернативы с минимальной мощностью верхнего контура.

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

22. Двухступенчатое правило относительного большинства

Сначала используется правило простого большинства (т.е. выбирается вариант, получивший больше 50% голосов - первых мест - в упорядочениях избирателей). Если такой вариант найден, то процедура останавливается. Если же такого варианта нет, то выбираются два варианта, набравшие больше голосов, чем другие варианты (если их больше двух, то берутся два с наименьшими номерами). Затем, считая что мнения избирателей относительно этих вариантов (при вычеркивании остальных) не изменяются, вновь применяем правило простого большинства/голосов - уже на двухэлементном множестве.

Поскольку индивидуальные мнения представляются в виде линейных порядков, всегда (при нечетном числе избирателей) существует единственный вариант-победитель.

Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

23. Система передачи голосов.

Сначала используется правило простого большинства (т.е. выбирается вариант, получивший больше 50% голосов). Если такой вариант найден, то процедура останавливается. Если же такого варианта нет, то из списка вычеркивается вариант x, набравший минимальное количество голосов.

Затем процедура вновь применяется к множеству X=A\{x и профилю /X Данное правило для выбора и ранжирования имеет линейную вычислительную сложность.

24. Процедура Янга

Если для профиля существует победитель Кондорсе, то он выбирается, и процедура на этом останавливается. Если же такого варианта нет, то рассматриваются всевозможные коалиции, на которых существуют частичные победители Кондорсе. Далее определяется функция u(x) как мощность максимальной коалиции, в которой x является победителем Кондорсе.

Тогда выбираются варианты с максимальным значением ux:

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

25. Процедура Симпсона (максиминная процедура)

Построим матрицу S+ такую, что ∀a, b∈X, S+=(n(a,b)), где

n(a, b)=card{i∈N|aPib}, n(a,a)=+ ∞.

Коллективный выбор определяется как

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

26. Минимаксная процедура

Построим матрицу S- такую, что ∀a,b∈X, S+=(n(a,b)), n(a,a)=-∞.

Коллективный выбор определяется как

Данное правило для выбора и ранжирования имеет вычислительную сложность не ниже квадратичной.

27. Сильное q-паретовское правило простого большинства

Пусть f(P;i;q)={X∈A-||card(Di(x))≤q} определяет q+1 вариантов от максимального и ниже в линейном порядке Pi. Пусть ℑ={I⊂N-||card(I)=[n/2]) (Где функция [χ] означает минимальное целое число, большее или равное x) есть семейство коалиций простого большинства. Введем функцию выбирающую вариант, который находится среди верхних вариантов для каждого избирателя хотя бы в одной коалиции простого большинства, и начнем с q=0. Если при q=0 такого варианта нет, то заново просматривается выбор по коалициям простого большинства при q, увеличенном на единицу (т.е. гири q=1) и т.д., до тех пор, пока выбор будет не пуст. Из этого непустого множества выбирается вариант с наименьшим номером, который принимается в качестве коллективного выбора.

Данное правило для выбора и ранжирования имеет экспоненциальную вычислительную сложность.

28. Сильное q-паретовское правило относительного большинства

Это правило аналогично правилу 26, с тем дополнением, что если выбраны несколько вариантов, то для каждого из них подсчитывается число выбравших его коалиций. Затем выбираются варианты с максимальным значением этого показателя.

Выбираются варианты с максимальным значением этого показателя. Данное правило для выбора и ранжирования имеет экспоненциальную вычислительную сложность.

29. Сильнейшее q-паретовское правило простого большинства

Введем функцию

C ( A ) = I f ( P ; I ; q )

где f ( P ; I ; q ) = { χ A | | c a r d ( i ( x ) ] ) q } , c a r d ( I ) = [ n / 2 ] - функция, выбирающая вариант, парето-оптимальный в каждой коалиции простого большинства, и начнем с q=0. Если таких элементов нет, то рассматривается случай q=1, q=2, и т.д., пока выбор будет не пуст.Из этого непустого множества выбирается вариант с наименьшим номером, который и принимается в качестве коллективного выбора. Данное правило для выбора и ранжирования имеет экспоненциальную вычислительную сложность.

30. Правило надпорогового выбора

Пусть на множестве A задан критерий φ(x), φ:A→R1, а на множестве 2A задана функция порога V: 2А→R1, сопоставляющая каждому набору Хе2А пороговый уровень V(X).

Правило надпорогового выбора представлено в виде следующего выражения:

n ¯ s t : y C ( X ) ( y X & ϕ ( y ) V ( X ) ) .

Данное правило для выбора имеет линейную вычислительную сложность, для ранжирования вычислительная сложность зависит входных данных, в худшем случае не выше квадратичной.

1. Способ отбора и ранжирования эффективных вариантов результатов поиска, заключающийся в том, что предварительно формируют критерии оценки релевантности варианта результатов поиска поисковому запросу и задают конечное число вариантов результатов поиска или набор процедур выбора и ранжирования вариантов результатов поиска и последовательность их выполнения для отбора вариантов результатов поиска, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов результатов поиска по релевантности критериям поискового запроса, на основании которой ранжируют варианты результатов поиска путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов результатов поиска по методу суперпозиции по меньшей мере в два этапа, если количество вариантов результатов поиска в оставшейся группе вариантов результатов поиска соответствует предварительно заданному конечному числу вариантов результатов поиска для отбора или использованы все заданные процедуры выбора, отбор вариантов результатов поиска и их ранжирование прекращают и варианты результатов поиска из отобранной группы оценивают как наиболее эффективные, если количество вариантов результатов поиска в оставшейся группе вариантов результатов поиска не соответствует предварительно заданному конечному числу вариантов результатов поиска для отбора, отбор вариантов результатов поиска и их ранжирование продолжают, при этом отбор вариантов результатов поиска, их ранжирование и исключение осуществляют до момента, пока не будет достигнуто заданное число вариантов результатов поиска или пока не будут использованы все заданные процедуры выбора и отобранную группу вариантов оценивают как наиболее эффективную.

2. Способ по п. 1, отличающийся тем, что на первом этапе осуществляют отбор вариантов результатов поиска при наличии их большого числа по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью О(n), и исключают группу вариантов результатов поиска, которые имеют самый низкий ранг.

3. Способ по п. 1, отличающийся тем, что на втором и последующих этапах формируют критерии оценки поискового запроса, на основании которых ранжируют варианты результатов поиска и осуществляют отбор вариантов результатов поиска из оставшегося обработанного на предыдущем этапе массива по методу суперпозиции с использованием методов, вычислительная сложность которых не ниже квадратичной O(n2) и исключают следующую группу вариантов результатов поиска с меньшим рангом.

4. Способ отбора и ранжирования эффективных вариантов результатов поиска, заключающийся в том, что предварительно формируют критерии оценки релевантности варианта результатов поиска поисковому запросу и задают конечное число вариантов результатов поиска для отбора, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов результатов поиска по релевантности критериям поискового запроса, на основании которой ранжируют варианты результатов поиска путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов результатов поиска по методу суперпозиции по меньшей мере в два этапа, если количество вариантов результатов поиска в оставшейся группе вариантов результатов поиска соответствует предварительно заданному конечному числу вариантов результатов поиска для отбора, отбор вариантов результатов поиска и их ранжирование прекращают и варианты результатов поиска из отобранной группы оценивают как наиболее эффективные, если количество вариантов результатов поиска в оставшейся группе вариантов результатов поиска не соответствует предварительно заданному конечному числу вариантов результатов поиска для отбора, отбор вариантов результатов поиска и их ранжирование продолжают, при этом отбор вариантов результатов поиска, их ранжирование и исключение осуществляют до момента, пока не будет достигнуто заданное число вариантов результатов поиска, отобранную группу вариантов результатов поиска оценивают как наиболее эффективную.

5. Способ по п. 4, отличающийся тем, что на первом этапе осуществляют отбор вариантов результатов поиска при наличии их большого числа по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью О(n), и исключают группу вариантов результатов поиска, которые имеют самый низкий ранг.

6. Способ по п. 4, отличающийся тем, что на втором и последующих этапах формируют критерии оценки поискового запроса, на основании которых ранжируют варианты результатов поиска и осуществляют отбор вариантов результатов поиска из оставшегося обработанного на предыдущем этапе массива по методу суперпозиции с использованием методов, вычислительная сложность которых не ниже квадратичной O(n2) и исключают следующую группу вариантов результатов поиска с меньшим рангом.

7. Способ по п. 4, отличающийся тем, что дополнительно задают набор процедур выбора и ранжирования вариантов результатов поиска и последовательность их выполнения.

8. Способ отбора и ранжирования эффективных вариантов результатов поиска, заключающийся в том, что предварительно формируют критерии оценки релевантности варианта результатов поиска поисковому запросу и задают набор процедур выбора и ранжирования вариантов результатов поиска и последовательность их выполнения для отбора вариантов результатов поиска, оцениваемых как наиболее эффективные, осуществляют оценку каждого из вариантов результатов поиска по релевантности критериям поискового запроса, на основании которой ранжируют варианты результатов поиска путем присвоения ранга каждому из них из условия соответствия наибольшему числу критериев в порядке их убывания; последовательно осуществляют отбор и ранжирование вариантов результатов поиска по методу суперпозиции по меньшей мере в два этапа, отбор вариантов результатов поиска, их ранжирование и исключение осуществляют до момента, пока не будут использованы все заданные процедуры выбора и отобранную группу вариантов результатов поиска оценивают как наиболее эффективную.

9. Способ по п. 8, отличающийся тем, что на первом этапе осуществляют отбор вариантов результатов поиска при наличии их большого числа по методу суперпозиции с использованием методов выбора и ранжирования, характеризующихся линейной вычислительной сложностью О(n), и исключают группу вариантов результатов поиска, которые имеют самый низкий ранг.

10. Способ по п. 8, отличающийся тем, что на втором и последующих этапах формируют критерии оценки поискового запроса, на основании которых ранжируют варианты результатов поиска и осуществляют отбор вариантов результатов поиска из оставшегося обработанного на предыдущем этапе массива по методу суперпозиции с использованием методов, вычислительная сложность которых не ниже квадратичной O(n2) и исключают следующую группу вариантов результатов поиска с меньшим рангом.

11. Способ по п. 8, отличающийся тем, что дополнительно задают конечное число вариантов результатов поиска для отбора, оцениваемых как наиболее эффективные.

12. Способ по п. 8, отличающийся тем, что для отбора наиболее эффективной группы вариантов результатов поиска задают дополнительные методы выбора и ранжирования и последовательность их выполнения и повторно осуществляют отбор и ранжирование.



 

Похожие патенты:

Изобретение относится к компьютерной технике. Технический результат - предоставление пользователю электронной книги и сопутствующей информации различных типов.

Изобретение относится к компьютерной технике, а именно к системам виртуальных помощников. Техническим результатом является автоматизация взаимодействия пользователя с электронным устройством посредством речевого ввода, интерпретирующего представления о намерениях пользователя.

Изобретение относится к системе, способу и машиночитаемому носителю для поиска документов. Технический результат заключается в повышении эффективности поиска документов.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является автоматизация взаимодействия пользователя с электронным устройством посредством интеллектуального автоматизированного помощника.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является автоматизация взаимодействия пользователя с электронным устройством посредством автоматизированного помощника.

Изобретение относится к области обработки и графического представления данных. Техническим результатом является упрощение присоединения нескольких типов визуализаций к сетке данных.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является автоматизация взаимодействия пользователя с электронным устройством посредством интеллектуального автоматизированного помощника.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является автоматизация взаимодействия пользователя с электронным устройством посредством интеллектуального автоматизированного помощника.
Изобретение относится к способу идентификации и классификации объекта. Технический результат - осуществление более быстрой идентификации и классификации объектов за счет предварительного задания N базовых классов, упорядоченных N-мерным вектором V.

Изобретение относится к средствам поиска и идентификации документов по их описаниям. Технический результат заключается в сокращении времени, затрачиваемого на проведение поиска нужной информации.

Изобретение относится к решениям в области обработки массивов данных, в частности к решениям в области обработки структурированных массивов данных, содержащих текст на естественном языке. Техническим результатом является формирование логически, грамматически и орфографически верной структуры данных, обеспечивающей быструю и удобную навигацию по элементам структуры. В способе преобразования структурированного массива данных, содержащего текст на естественном языке, формируют (101) первую структуру данных структурированного массива данных из итоговой структуры данных структурированного массива данных. Формируют (102) базу данных логических связей логических разделов элементов первой структуры данных. Формируют (103) вторую структуру данных структурированного массива данных. Формируют (104) базу данных семантических частей логических разделов элементов второй структуры данных. Формируют (105) грамматически и орфографически верные семантические части логических разделов элементов второй структуры данных путем лингвистических преобразований над упомянутыми семантическими частями. Формируют (106) итоговую структуру данных структурированного массива данных. 4 н. и 13 з.п. ф-лы, 15 ил., 3 табл.

Изобретение относится к компьютерной технике, а именно к системам обработки информации, полученной из социальной сети. Техническим результатом является обеспечение улучшенной фильтрации данных, полученных из социальной сети, в соответствии с конкретным набором параметров пользователя. Предложен способ отображения изображений карт с отображением соответствующих устройств пользователей. Способ включает в себя этап, на котором осуществляют идентификацию географического района, представляющего интерес. Далее, согласно способу, получают доступ к информации о местоположении множества пользователей исходя из местоположения множества устройств пользователей, соответственно ассоциируемых с множеством пользователей. А также получают доступ к информации социальной сети, содержащей метаданные, относящиеся соответственно к каждому пользователю из множества пользователей. Кроме того, осуществляют фильтрацию метаданных, чтобы различать подмножества множества пользователей, и отображают изображения карты местности, соответствующей географическому району, представляющему интерес. 3 н. и 6 з.п. ф-лы, 7 ил.

Изобретение относится к средствам управления данными. Технический результат заключается в уменьшении времени обработки элементов данных. Обнаруживают элемент данных. Классифицируют элемент данных с использованием одного или более свойств, связанных с элементом данных, для формирования связанного с ним набора свойств классификации, причем эти одно или более свойств включают в себя имеющиеся свойства классификации, связанные с элементом данных, при этом элемент данных классифицируется одним или более компонентами классификации. Агрегируют наборы свойств классификации, когда элемент данных классифицируется двумя или более компонентами классификации. Применяют политику к элементу данных на основе по меньшей мере одного из набора свойств классификации и агрегированных наборов свойств классификации. 3 н. и 17 з.п. ф-лы, 6 ил., 1 табл.

Изобретение относится к определению семантики для местоположений на основе пользовательских данных, таких как действия пользователя и/или связи пользователя. Технический результат состоит в способности идентифицировать и различать различные контексты, которые применяются для одного и того же местоположения для конкретного пользователя. Для этого пользовательские данные захватываются и анализируются для идентификации ключевых слов, включая местоположения. Данные местоположения, описывающие местоположения, получают и ассоциируют с пользователем и ключевыми словами. Ассоциации представляют пользовательский контекст для местоположений. Ассоциации используются для доставки услуг и/или продуктов пользователю в разное время, например когда пользователь приближается или входит в конкретное местоположение. 2 н. и 13 з.п. ф-лы, 5 ил.

Изобретение относится к области управления базами данных, а именно к приложениям базы данных для выполнения некоторых функций относительно базы данных. Технический результат заключается в обеспечении пользователям без копии клиентской прикладной программы базы данных получать доступ и использовать приложение базы данных посредством браузера всемирной паутины (“Web”) и локальной или глобальной сети. Технический результат достигается за счет серверной прикладной программы базы данных, которая обеспечивается таким образом, что она сконфигурирована для предоставления программируемого интерфейса в приложение базы данных посредством унифицированных указателей ресурса (URL) служб базы данных. URL служб базы данных, используемый приложением базы данных, может быть обновлен программно выполнением программного кода в или под управлением серверной прикладной программы базы данных. Также описывается макродействие для использования совместно с серверным приложением базы данных, которое предоставляет функциональные возможности для отображения объекта базы данных, такого как форма или отчет локально в Web-браузере. 2 н. и 17 з.п. ф-лы, 8 ил.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является повышение точности представления пользователю релевантной информации за счет выявления намерения пользователя исходя из текстовой строки и имени отправителя, обособленного от пользователя. Предложен способ функционирования интеллектуального автоматизированного помощника. Способ выполняется в электронном устройстве, содержащем процессор и память, в которой сохранены инструкции, исполняемые процессором. Процессор исполняет инструкции, на которых принимают пользовательский запрос, включающий речевой ввод, принятый от пользователя. Извлекают информацию об имени отправителя из передачи, принятой в электронном устройстве до приема речевого ввода. При этом данная передача принята от отправителя, являющегося обособленным от упомянутого пользователя. Выявляют намерение пользователя, исходя из упомянутой текстовой строки и имени отправителя. 3 н. и 12 з.п. ф-лы, 50 ил., 5 табл.

Изобретение относится к вычислительной технике. Технический результат заключается в уменьшении некачественных отчетов в базе данных. Система для хранения варианта отчета содержит базу данных отчетов, выполненную с возможностью хранения и предоставления отчетов; средство пользовательского ввода в компьютере, выполненное с возможностью создания и редактирования отчета, причем вариант отчета не хранится в базе данных отчетов; базу данных запросов, выполненную с возможностью хранения и предоставления запросов, причем запросы подходят для поиска в базе данных отчетов; аппаратное поисковое устройство, выполненное с возможностью извлечения одного или более запросов из базы данных запросов; извлечения варианта отчета из средства пользовательского ввода; исполнения одного или более запросов по варианту отчета для определения релевантности варианта отчета, причем релевантность характеризует, будет ли извлечен вариант отчета из базы данных отчетов при исполнении одного или более запросов; сравнения релевантности с заранее заданным пороговым значением внесения в базу данных отчетов; добавления варианта отчета в базу данных отчетов, если релевантность превышает заранее заданное пороговое значение внесения в базу данных отчетов; и хранения варианта отчета в базе данных отчетов, если релевантность превышает заранее заданное значение. 4 н. и 11 з.п. ф-лы, 3 ил.

Изобретение относится к области систем управления базами данных (СУБД). Техническим результатом является обеспечение автоматического формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды. В способе формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды идентифицируют 110 метаописание синтаксиса команды. Идентифицируют 120 элементы метаописания и присваивают каждому элементу уникальный идентификатор (ID), причем ID присваивается в порядке очередности расположения элементов в метаописании. Формируют 130 таблицу, содержащую все элементы, причем каждый элемент содержится в одной колонке таблицы на разных строках таблицы. Идентифицируют 140 открывающие структурные элементы и закрывающие структурные элементы среди элементов, содержащихся в таблице, и генерируют двунаправленные связи между соответствующими открывающими и закрывающими структурными элементами. Генерируют 150 однонаправленные иерархические связи между открывающими элементами и соответствующим открывающим элементом, находящимся на предыдущем уровне вложенности, причем генерирование упомянутых связей осуществляется для каждого открывающего элемента, находящегося на любом из уровней, кроме первого уровня. 4 н. и 13 з.п. ф-лы, 15 ил.

Изобретение относится к компьютерной технике, а именно к поисковым системам в сети Интернет. Техническим результатом является минимизация вычислительных издержек за счет генерации предлагаемого терма запроса в реальном времени на основании оперативного контента. Предложен реализуемый компьютером способ предоставления оперативного контента. Способ содержит этапы, на которых принимают частичный терм запроса от пользователя, на основе частичного терма запроса генерируют предлагаемый терм запроса, который включает в себя частичный терм запроса. А также, согласно способу, в ответ на генерирование предлагаемого терма запроса инициируют поиск оперативного контента стороннего поставщика контента для получения по существу оперативного контента, который относится к предлагаемому терму запроса. Получение оперативного контента включает в себя выполнение поисковой машиной поиска оперативного контента после генерирования предлагаемого терма запроса. 4 н. и 16 з.п. ф-лы, 12 ил.

Изобретение относится к области объединения источников информации, касающихся индивидуумов и коммерческих организаций, к которым индивидуумы принадлежат или принадлежали. Техническим результатом является построение точного профессионального профиля индивидуума. Способ включает в себя: прием первой записи, которая содержит личные данные индивидуума, наименование фирмы и роль индивидуума в фирме; установление соответствия между первой записью и данными, которые обеспечивают уникальный идентификатор фирмы для упомянутой фирмы, установление соответствия между первой записью и данными, которые обеспечивают уникальный идентификатор индивидуума для индивидуума; добавление к первой записи уникального идентификатора фирмы, уникального идентификатора индивидуума и уникального идентификатора роли для роли индивидуума в фирме; установление соответствия между первой записью и второй записью на основе уникального идентификатора фирмы, уникального идентификатора индивидуума и уникального идентификатора роли и объединение первой и второй записей в результирующую запись. 3 н. и 9 з.п. ф-лы, 4 ил., 1 табл.
Наверх