Способ и устройство иерархической фильтрации документов

Изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов. Техническим результатом является сокращение времени ответа при поиске и снижение расходов на вычисление. В способе иерархической фильтрации документов выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формируют первый список документов. Вычисляют значение качества каждого документа в первом списке документов. Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа, чтобы получить второй список документов. Фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов. В соответствии с изобретением фильтруется фильтруемый набор документов текущего слоя фильтрации документов, так что значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. 2 н. и 10 з.п. ф-лы, 3 ил.

 

Область техники, к которой относится изобретение

Настоящее изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов.

Предпосылки создания изобретения

В повседневной жизни пользователь часто использует ключевые слова, чтобы осуществлять поиск требуемого контента посредством использования поисковой машины. Поисковой машине требуется найти связанные документы из значительного количества документов в соответствии с ключевым словом с тем, чтобы пользователь смог прочитать требуемый контент из связанных документов.

В настоящее время, во время поиска документа, поисковая машина сначала использует алгоритм релевантности с определенным количеством признаков, чтобы вычислить релевантность между каждым документом из значительного количества документов и ключевым словом, т.е. значение качества документа, и отфильтровывает документы со значениями качества меньше, чем текущая пороговая величина фильтрации. Когда в алгоритм релевантности добавляются еще признаки, вычисляются значения качества оставшихся документов, и дополнительно отфильтровываются документы со значениями качества меньше, чем текущая пороговая величина фильтрации. По аналогии, вычисление значения качества документов и отфильтровывание документов со значениями качества, меньшими, чем пороговая величина фильтрации, выполняются несколько раз вышеупомянутым образом до тех пор, пока количество документов, получаемых в результате фильтрации, не достигает ожидаемого количества, и итоговые оставшиеся документы определяются в качестве связанных документов, найденных посредством поиска.

Во время реализации настоящего изобретения авторы изобретения обнаружили, что когда присутствует некоторое количество документов в поиске, каждый раз после фильтрации, по-прежнему остается много документов. Вычисление значений качества большого количества документов занимает всякий раз длительное время, и в целом, это занимает много времени, что приводит к более высоким накладным расходам на вычисления и длительному времени ответа при поиске.

Сущность изобретения

В связи с этим, цель вариантов осуществления настоящего изобретения состоит в предоставлении способа и устройства иерархической фильтрации документов, тем самым реализуя иерархическую фильтрацию документов, сокращая время ответа при поиске, и снижая накладные расходы на вычисления.

В соответствии с первым аспектом, вариант осуществления настоящего изобретения предоставляет способ иерархической фильтрации документов, при этом способ включает в себя этапы, на которых:

выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов;

вычисляют значение качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет первую возможную реализацию первого аспекта, где этап, на котором выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, включает в себя этапы, на которых:

определяют, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого из подмножеств документов;

делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

выбирают второе количество документов из каждого из подмножеств документов соответственно, чтобы получить несколько документов.

Со ссылкой на первую возможную реализацию первого аспекта, данный вариант осуществления настоящего изобретения предоставляет третью возможную реализацию первого аспекта, где этап, на котором выбирают второе количество документов из каждого из подмножеств документов соответственно, включает в себя этапы, на которых:

выбирают второе количество документов из передней части каждого из подмножеств документов соответственно; или,

выбирают второе количество документов из каждого из подмножеств документов с предварительно определенным интервалом соответственно; или,

выбирают второе количество документов из каждого из подмножеств документов соответственно случайным образом.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет вторую возможную реализацию первого аспекта, где этап, на котором выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, включает в себя этапы, на которых:

определяют интервал отбора образцов документов в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и

выбирают документы из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет четвертую возможную реализацию первого аспекта, где этап, на котором фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, включает в себя этапы, на которых:

оценивают, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисляют значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивают документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет пятую возможную реализацию первого аспекта, где после этапа, на котором фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, способ дополнительно включает в себя этапы, на которых:

оценивают, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определяют документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, используют отфильтрованный фильтруемый набор документов в качестве нового набора документов, и фильтруют новый набор документов посредством использования нижерасположенного слоя фильтрации документов.

В соответствии со вторым аспектом, вариант осуществления настоящего изобретения предоставляет устройство иерархической фильтрации документов, где устройство включает в себя:

модуль выбора, выполненный с возможностью выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формирования первого списка документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов;

модуль вычисления, выполненный с возможностью вычисления значения качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

модуль упорядочивания, выполненный с возможностью переупорядочивания документов в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

модуль фильтрации, выполненный с возможностью фильтрации фильтруемого набора документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет первую возможную реализацию второго аспекта, где модуль выбора включает в себя:

первый блок определения, выполненный с возможностью определения, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первого количества подмножеств документов на которое требуется разделить фильтруемый набор документов, и второго количества документов, которое требуется выбрать из каждого из подмножеств документов;

блок деления, выполненный с возможностью деления фильтруемого набора документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

первый блок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно, чтобы получить несколько документов.

Со ссылкой на первую возможную реализацию второго аспекта, данный вариант осуществления настоящего изобретения предоставляет третью возможную реализацию второго аспекта, где первый блок выбора включает в себя:

первый субблок выбора, выполненный с возможностью выбора второго количества документов из передней части каждого из подмножеств документов соответственно; или,

второй субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов с предварительно определенным интервалом соответственно; или,

третий субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно случайным образом.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет вторую возможную реализацию второго аспекта, где модуль выбора включает в себя:

второй блок определения, выполненный с возможностью определения интервала отбора образцов документов в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и

второй блок выбора, выполненный с возможностью выбора документов из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет четвертую возможную реализацию второго аспекта, где модуль фильтрации включает в себя:

блок фильтрации, выполненный с возможностью определения, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывания документов, удовлетворяющих предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисления значения качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивания документов в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывания документов, удовлетворяющих предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет пятую возможную реализацию второго аспекта, где устройство дополнительно включает в себя:

модуль оценки остановки, выполненный с возможностью определения, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определения документов в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, использования отфильтрованного фильтруемого набора документов в качестве нового набора документов, и фильтрации нового набора документов посредством использования нижерасположенного слоя фильтрации документов.

В соответствии со способом и устройством, предоставляемыми вариантом осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которое требуется обработать на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может фильтроваться в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске, и снижаются накладные расходы на вычисления.

Для того чтобы сделать цели, признаки, и преимущества настоящего изобретения более понятными, подробное описание предоставляется ниже посредством использования предпочтительных вариантов осуществления со ссылкой на сопроводительные чертежи.

Краткое описание чертежей

Чтобы проиллюстрировать технические решения в вариантах осуществления настоящего изобретения более четко, сопроводительные чертежи, требуемые для описания вариантов осуществления, кратко описываются ниже. Должно быть понятно, что сопроводительные чертежи ниже лишь показывают некоторые варианты осуществления настоящего изобретения, и, вследствие этого, не должны толковаться в качестве ограничивающих объем. Специалисты в соответствующей области техники по-прежнему могут получить другие чертежи из этих сопроводительных чертежей, без приложения творческих усилий.

Фиг. 1A является блок-схемой способа иерархической фильтрации в соответствии с Вариантом 1 Осуществления настоящего изобретения;

Фиг. 1B является принципиальной блок-схемой выбора документа в соответствии с Вариантом 1 Осуществления настоящего изобретения; и

Фиг. 2 является принципиальной структурной схемой устройства иерархической фильтрации в соответствии с Вариантом 2 Осуществления настоящего изобретения.

Подробное описание

Технические решения в соответствии с вариантами осуществления настоящего изобретения четко и полностью описываются ниже со ссылкой на сопроводительные чертежи. Очевидно, что варианты осуществления нижеследующего описания являются лишь некоторыми, а не всеми вариантами осуществления настоящего изобретения. Как правило, компоненты вариантов осуществления настоящего изобретения, описанные или показанные на сопроводительных чертежах, могут быть организованы или исполнены в соответствии с разнообразными конфигурациями. Вследствие этого, нижеследующее подробное описание вариантов осуществления настоящего изобретения, предоставленное на сопроводительных чертежах, не предназначено для того, чтобы ограничивать объем правовой охраны настоящего изобретения, а лишь показывает выбранные варианты осуществления настоящего изобретения. Все другие варианты осуществления, полученные специалистами в соответствующей области техники на основании вариантов осуществления настоящего изобретения без приложения творческих усилий, должны лежать в рамках объема правовой охраны настоящего изобретения.

В области техники поиска, к которой принадлежит настоящее изобретение, количество документов в сети Интернет очень большое, так что поисковая машина может находить большое количество связанных документов в соответствии с ключевым словом, предоставленным пользователем, но значительная часть большого количества связанных документов обладает очень низкой релевантностью по отношению к ключевому слову, и качество документа большого числа документов является очень низким. Если такие документы отправляются к пользователю, вероятность того, что пользователь просматривает такие документы очень низкая, и передача таких документов требует растраты большого объема трафика данных. Чтобы сократить трафик данных и улучшить информативный характер и качество документа у документов, которые в итоге передаются пользователю, требуется сначала отфильтровать найденные документы.

В ходе осмысления решения фильтрации документов настоящего изобретения, учитывалось, что в известном уровне техники, когда количество документов, найденных посредством поиска, является очень большим, фильтрация выполняется в соответствии со значениями качества документов несколько раз, причем количество оставшихся документов после каждой фильтрации по-прежнему очень большое, и по-прежнему каждый раз вычисление значений качества большого количества документов занимает очень длительное время, приводя к тому, что накладные расходы на вычисления являются очень высокими, а время ответа при поиске является очень длительным. На основании этого, варианты осуществления настоящего изобретения предоставляют способ и устройство иерархической фильтрации документов. Описание предоставляется ниже посредством использования вариантов осуществления.

Вариант 1 Осуществления

Данный вариант осуществления настоящего изобретения предоставляет способ иерархической фильтрации документов. В данном варианте осуществления присутствует несколько слоев фильтрации документов от верхнего к нижнему, способ вычисления релевантности является предварительно установленным для каждого слоя фильтрации документов, и способы вычисления релевантности слоев могут быть разными, как исходя из количества признаков, которые используются, так и исходя из сложности алгоритма. Для нижерасположенного слоя фильтрации документов, может быть использован алгоритм более высокой сложности и большее число признаков с тем, чтобы улучшить точность вычисления.

Во время фильтрации документов на каждом слое фильтрации документов способ фильтрации документов на первом слое является точно таким же, как существующий способ фильтрации документов, т.е., документы удовлетворяющие предварительно установленному условию фильтрации фильтруются в соответствии со значением качества каждого документа, и оставшиеся документы переносятся на второй слой с тем, чтобы фильтроваться в дальнейшем. Предварительно установленное условие фильтрации может состоять в том, что отфильтровываются все документы со значениями качества меньшими, чем предварительно установленная пороговая величина качества; или может состоять в том, что оставляется предварительно определенное количество документов с самыми высокими значениями качества, а другие документы отфильтровываются. Применительно к каждому из этих слоев фильтрации, за исключением первого слоя, фильтруемый набор документов текущего слоя фильтрации документов фильтруется посредством использования способа, предоставленного посредством данного варианта осуществления настоящего изобретения, и набор документов, после того как фильтрация выполняется на текущем слое фильтрации документов, используется в качестве набора документов, который должен быть отфильтрован на нижерасположенном слое фильтрации документов, до тех пор, пока набор документов, полученный посредством фильтрации, уже не удовлетворяет требованию, например, количество наборов документов уже достигло ожидаемого количества, или до тех пор, пока набор документов уже не отфильтрован последним слоем.

Обращаясь к Фиг. 1A, Фиг. 1A является блок-схемой способа иерархической фильтрации документов, предоставленного данным вариантом осуществления настоящего изобретения, и способ, в частности, включает в себя следующие этапы:

Этап 101: Выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов.

Фильтруемый набор документов текущего слоя фильтрации документов является набором документов, сформированным документами, которые остались после фильтрации, выполненной на вышерасположенном слое фильтрации документов. Документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов. Т.е., во время фильтрации на вышерасположенном слое фильтрации документов, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и документы в фильтруемом наборе документов упорядочиваются в соответствии с предварительно установленной упорядоченностью значений качества. Предварительно установленная упорядоченность может быть упорядоченностью по убыванию значений качества или упорядоченностью по возрастанию значений качества.

Способ вычисления релевантности состоит в том, что значение качества документа вычисляется посредством использования предварительно установленного алгоритма в соответствии с некоторым количеством признаков, и в данном варианте осуществления настоящего изобретения, соответствующий способ вычисления релевантности конфигурируется для каждого слоя. Предварительно установленный алгоритм может быть алгоритмом ранжирования релевантности, таким как алгоритм BM25. Значение качества может указывать, является ли качество документа хорошим или низким. Большее значение качества указывает более высокое качество документа, а меньшее значение качества указывает на более низкое качество документа. Признаки, используемые способом вычисления релевантности, могут быть признаками, таким как длина документа и количество раз или частота, с которой ключевое слово встречается в документе.

В данном варианте осуществления настоящего изобретения, предварительно установленная стратегия отбора образцов может включать в себя количество документов, выбираемых из фильтруемого набора документов текущего слоя фильтрации документов, и способ выбора. Способ выбора может быть случайным выбором документов, выбором документов из передней части фильтруемого набора документов, выбором документов с предварительно определенным интервалом, или подобным. Количество выбранных документов связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может включать в себя предварительно установленный коэффициент выбора. Во время выбора документа, количество выбираемых документов может определяться в соответствии с количеством документов, включаемых фильтруемым набором документов, и коэффициентом выбора.

В данном варианте осуществления настоящего изобретения, несколько документов может быть выбрано из фильтруемого набора документов текущего слоя фильтрации документов непосредственно в соответствии с предварительно установленной стратегией отбора образцов, и первый список документов формируется посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов. Способ упорядочивания документов в первом списке документов, полученном данным путем, является точно таким же, как способ упорядочивания документов в фильтруемом наборе документов, и все документы в первом списке документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов, так что достоверность упорядоченности документов в первом списке документов является очень близкой к достоверности упорядоченности документов в фильтруемом наборе документов, и первый список документов может быть использован, чтобы представлять фильтруемый набор документов. Количество документов в первом списке документов много меньше количества документов в фильтруемом наборе документов, так что выполнение последующей обработки посредством использования первого списка документов, чтобы представлять фильтруемый набор документов, может значительно сократить объем вычислений, упростить процесс обработки и снизить накладные расходы на вычисления.

Чтобы облегчить понимание вышеупомянутой операции выбора документов и формирования первого списка документов, ниже в качестве примера предоставляется описание. Например, предполагается, что предварительно установленным коэффициентом выбора, включенным в предварительно установленную стратегию отбора образцов, является 20%, способ выбора состоит в том, что выбор выполняется с предварительно определенным интервалом, равным 10, и количество документов в фильтруемом наборе документов текущего слоя фильтрации документов составляет 5000. Один документ выбирается, с интервалом каждые 10 документов, из 5000 документов, включенных в фильтруемый набор документов текущего слоя фильтрации документов, суммарно выбирается 500 документов, и первый список документов формируется, посредством использования 500 документов в соответствии с упорядоченностью 500 документов в фильтруемом наборе документов.

Когда документы выбираются из фильтруемого набора документов посредством отбора образцов, если выбор является более равномерным, степень, в которой полученный первый список документов представляет фильтруемый набор документов, является более высокой. Вследствие этого, для того, чтобы выбирать документы равномерно из фильтруемого набора документов, перед вышеупомянутой операцией выбора документа, фильтруемый набор документов может быть дополнительно разделен равномерно на несколько подмножеств документов, и затем документы выбираются из каждого подмножества документов соответственно. Количество подмножеств документов, полученных посредством деления, связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может дополнительно включать в себя предварительно установленное правило деления, количество документов, выбираемых из подмножества документов, и способ выбора. Предварительно установленное правило деления может состоять в том, что количество документов в подмножестве документов, получаемом посредством деления, является фиксированным значением; или, предварительно установленное правило деления может состоять в том, что когда количество документов в фильтруемом наборе документов больше, чем предварительно установленная пороговая величина, фильтруемый набор документов делится на первое предварительно установленное количество подмножеств документов, или в противном случае, фильтруемый набор документов делится на второе предварительно установленное количество подмножеств документов. Предварительно установленное правило деления также может быть другим правилом, и может быть установлено в соответствии с фактическими потребностями на практике.

Как показано на Фиг. 1B, вышеупомянутая операция получения подмножеств документов посредством сначала деления и затем выбора документов, может быть в частности реализована посредством операции из следующих этапов с S1 по S4, которые в частности включают в себя:

S1: Определяют, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов и предварительно установленным правилом деления, включенным в предварительно установленную стратегию отбора образцов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов.

S2: Определяют, в соответствии с предварительно установленной стратегией отбора образцов, второе количество документов, которое требуется выбрать из каждого подмножества документов.

S3: Делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов.

S4: Выбирают второе количество документов из каждого подмножества документов соответственно, чтобы получить несколько документов.

Операция выбора второго количества документов из каждого подмножества документов соответственно может быть выполнена посредством использования нескольких способов выбора, которые в частности включают в себя:

выбор второго количества документов из передней части каждого подмножества документов соответственно; или, выбор второго количества документов из каждого подмножества документов с предварительно определенным интервалом соответственно; или, выбор второго количества документов из каждого подмножества документов соответственно случайным образом.

Непосредственный выбор документов из передних частей подмножеств документов обеспечивает быстрый выбор второго количества документов из каждого подмножества документов, тем самым сокращая время выбора документов из фильтруемого набора документов. Выполнение выбора с предварительно определенным интервалом или выполнение случайного выбора обеспечивает равномерный выбор документов из каждого подмножества документов, так что итоговый формируемый первый список документов может лучше представлять фильтруемый набор документов.

Чтобы облегчить понимание вышеупомянутого способа получения подмножеств документов посредством сначала деления и затем выбора документов, ниже в качестве примера предоставляется описание. Например, предполагается, что предварительно установленное правило деления, включенное в предварительно установленную стратегию отбора образцов, состоит в том, что количество документов в подмножестве документов, получаемых посредством деления, равно 200, количество документов выбираемых из подмножества документов является 20, и способ выбора является случайным выбором; и количество документов в фильтруемом наборе документов текущего слоя фильтрации документов составляет 5000. Количество подмножеств документов, которые должны быть получены посредством деления, определяется равным 25 в соответствии с правилом о том, что количество документов в фильтруемом наборе документов текущего слоя фильтрации документов равно 5000 и что количество документов в подмножестве документов предварительно установлено равным 200 в предварительно установленном правиле деления. Соответственно, 20 документов случайным образом выбираются из каждого из 25 подмножеств документов, полученных посредством деления, и, вследствие этого, суммарно выбирается 500 документов. Первый список документов формируется посредством использования 500 документов в соответствии с упорядоченностью 500 документов в фильтруемом наборе документов.

В данном варианте осуществления настоящего изобретения, когда документы выбираются из фильтруемого набора документов текущего слоя фильтрации документов посредством использования способа разнесенного отбора образцов, если документы выбираются с предварительно определенным интервалом, когда количество документов в фильтруемом наборе документов текущего слоя фильтрации документов является очень большим, большое количество документов выбираются из фильтруемого набора документов, и, как результат, объем вычислений по-прежнему является очень большим, когда последующая обработка фильтрации выполняется в соответствии со сформированным первым списком документов. Вследствие этого, во время разнесенного отбора образцов, интервал отбора образцов может быть адаптирован к количеству документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов. Большее количество документов приводит к большему интервалу отбора образцов, а меньшее количество документов приводит к меньшему интервалу отбора образцов. Конкретная операция выбора разнесенного отбора образцов включает в себя:

Несколько интервалов отбора образцов может быть установлено в предварительно установленной стратегии отбора образцов, и каждый интервал отбора образцов является соответствующим диапазону количества документов соответственно. Диапазон количества документов, соответствующий количеству документов, включаемых фильтруемым набором документов, определяется в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, интервал отбора образцов, соответствующий диапазону количества, определяется в качестве интервала отбора образцов документов, и затем документы выбираются из фильтруемого набора документов в соответствии с интервалом отбора образцов документов с тем, чтобы получить несколько документов.

Например, предполагается, что в предварительно установленной стратегии отбора образцов установлено, что интервал отбора образцов равный 10 является соответствующим диапазону количества документов [2000, 5000], и установлено, что интервал отбора образцов равный 20 является соответствующим диапазону количества документов (5000, 10000], и предполагается, что количество документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, равно 8000, так что определяется, что диапазоном, соответствующим количеству документов 8000, является (5000, 10000], и определяется, что интервал отбора образцов фильтруемого набора документов текущего слоя фильтрации документов равен 20. Один документ выбирается, через каждый интервал в 20 документов, из 8000 документов, включаемых фильтруемым набором документов, и суммарно выбирается 400 документов. Посредством операции этапа 101, первый список документов формируется посредством использования документов, выбранных из фильтруемого набора документов. Упорядоченность размещения документов в первом списке документов является точно такой же, как упорядоченность размещения документов в фильтруемом наборе документов.

Этап 102: Вычисляют значение качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов.

Для каждого документа, включенного в первый список документов, значение параметра предварительно установленного признака, используемого текущим слоем фильтрации документов, получается из документа, и значение качества документа вычисляется в соответствии с полученным значением параметра признака, посредством использования предварительно установленного алгоритма ранжирования релевантности. Например, предполагается, что предварительно установленным признаком, используемым текущим слоем фильтрации документов, является длина документа и количество раз, которое встречается ключевое слово, и предполагается, что предварительно установленным алгоритмом ранжирования релевантности является алгоритм BM25, так что получается длина документа, подсчитывается количество раз, которое ключевое слово встречается в документе, и значение качества документа вычисляется посредством использования алгоритма BM25, в соответствии с длиной документа и количеством раз, которое встречается ключевое слово.

Этап 103: Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов.

Документы в первом списке документов переупорядочиваются в соответствии с вычисленным значением качества каждого документа в первом списке документов и предварительно установленной упорядоченностью, чтобы получить второй список документов.

Предварительно установленная упорядоченность является точно такой же как способ упорядочивания документов в фильтруемом наборе документов. Т.е., если документы в фильтруемом наборе документов упорядочены в упорядоченности по убыванию значений качества, предварительно установленной упорядоченностью также является упорядочивание в упорядоченности по убыванию значения качества; а если документы в фильтруемом наборе документов упорядочены в упорядоченности по возрастанию значений качества, предварительно установленной упорядоченностью также является упорядочивание в упорядоченности по возрастанию значений качества.

Таким образом, способ упорядочивания документов во втором списке документов, полученном посредством переупорядочивания, является точно таким же, как способ упорядочивания документов в первом списке документов. Разница состоит в том, что документы в первом списке документов упорядочены в соответствии со значениями качества на вышерасположенном слое фильтрации документов, а документы во втором списке документов упорядочены в соответствии со значениями качества на текущем слое фильтрации документов. Вследствие этого, если упорядоченность размещения документов в первом списке документов является очень близкой или точно такой же, как упорядоченность размещения документов во втором списке документов, это указывает на то, что результат упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, является очень близким к результату упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и в данном случае, не требуется выполнять обработку вычисления над каждым документом в фильтруемом наборе документов на текущем слое фильтрации документов.

Вследствие этого, после того как получается второй список документов, требуется дополнительно выполнить операцию следующего этапа 104, чтобы определить степень согласованности между первым списком документов и вторым списком документов, и отфильтровать фильтруемый набор документов в соответствии со степенью согласованности между двумя.

Этап 104: Фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Степень согласованности между первым списком документов и вторым списком документов вычисляется в соответствии с упорядоченностью упорядоченного списка индекса согласованности посредством использования предварительно установленного алгоритма согласованности. Индекс согласованности может быть индексом оценки web-страницы, таким как DCG (Дисконтированная Совокупная Выгода, индекс, который измеряет качество поисковой машины) или nDCG (нормированная Дисконтированная Совокупная Выгода, стандартный индекс, который измеряет качество поисковой машины). Предварительно установленным алгоритмом согласованности может быть алгоритм DCG или алгоритм nDCG.

Вычисленная степень согласованности находится в диапазоне значения [0,1]. Если степень согласованности приближается к 1, это указывает на то, что разница между упорядоченностью размещения документов в первом списке документов и упорядоченностью размещения документов во втором списке документов небольшая, и, вследствие этого, это указывает на то, что разница между упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на вышерасположенном слое фильтрации документов, и упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на текущем слое фильтрации документов, небольшая. Если степень согласованности приближается к 0, это указывает на то, что разница между упорядоченностью размещения документов в первом списке документов и упорядоченностью размещения документов во втором списке документов очень большая, и, вследствие этого, это указывает на то, что разница между упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на вышерасположенном слое фильтрации документов, и упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на текущем слое фильтрации документов, очень большая.

В данном варианте осуществления настоящего изобретения, предварительно устанавливается предварительно устанавливаемая пороговая величина согласованности, и предварительно установленная пороговая величина согласованности может быть значением, близким к 1, таким как 0.85 или 0.9. Определяется, является ли степень согласованности выше, чем предварительно установленная пороговая величина согласованности. Когда определяется, что степень согласованности выше, чем предварительно установленная пороговая величина согласованности, определяется, что упорядоченность размещения документов в первом списке документов является точно такой же, как упорядоченность размещения документов во втором списке документов. В противном случае, когда степень согласованности меньше, чем или равна предварительно установленной пороговой величине согласованности, определяется, что упорядоченность размещения документов в первом списке документов отличается от упорядоченности размещения документов во втором списке документов.

Когда определяется, что упорядоченность размещения документов в первом списке документов согласуется с упорядоченностью размещения документов во втором списке документов, упорядоченность размещения документов в фильтруемом наборе документов определяется как правдоподобная, не требуется вычисления значения качества каждого документа в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов и выполнение переупорядочивания, и вместо этого непосредственно фильтруются документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов. Предварительно установленное условие фильтрации может заключаться в том, что отфильтровываются документы со значениями качества меньше, чем предварительно установленная пороговая величина качества; или, предварительно установленное условие фильтрации может заключаться в том, что оставляют предварительно установленное количество документов с самыми большими значениями качества, а другие документы отфильтровываются.

Когда определяется, что упорядоченность размещения документов в первом списке документов не согласуется с упорядоченностью размещения документов во втором списке документов, упорядоченность размещения документов в фильтруемом наборе документов определяется как неправдоподобная, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, документы в фильтруемом наборе документов переупорядочиваются в соответствии с вычисленными значениями качества, и документы, удовлетворяющие предварительно установленному условию фильтрации в упорядоченном фильтруемом наборе документов, фильтруются.

В данном варианте осуществления настоящего изобретения, правдоподобность упорядоченности размещения документов в фильтруемом наборе документов определяется в соответствии со степенью согласованности между первым списком документов и вторым списком документов; когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, непосредственно фильтруется фильтруемый набор документов; и лишь когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов неправдоподобная, требуется вычисление значения качества каждого документа в фильтруемом наборе документов. Таким образом, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, количество документов, в отношении которых должно быть осуществлено вычисление на текущем слое фильтрации документов может быть значительно сокращено.

В процессе поиска документов, фильтруемый набор документов может фильтроваться на каждом слое фильтрации в соответствии с операцией вышеупомянутых этапов с 101 по 104, так что, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная на нескольких слоях, может быть значительно сокращено количество документов, в отношении которых должно быть осуществлено вычисление во всем процессе поиска, снижаются накладные расходы на вычисления и сокращается время ответа при поиске.

В данном варианте осуществления настоящего изобретения, дополнительно предварительно устанавливается условие остановки фильтрации. Предварительно установленным условием остановки фильтрации может быть: фильтрация останавливается, когда количество документов в отфильтрованном фильтруемом наборе документов меньше, чем некоторое значение, т.е., в данном случае, количество оставшихся документов после фильтрации уже достигает ожидаемого значения, и фильтрация может быть остановлена.

В качестве альтернативы, предварительно установленным условием остановки фильтрации может быть: когда текущий слой фильтрации документов является последним слоем, операция фильтрации документов останавливается, т.е., после того, как набор документов фильтруется на последнем слое фильтрации документов, фильтрация документов останавливается. В дополнение, слой, на котором фильтрация останавливается также может быть установлен пользователем в соответствии с конкретными потребностями. Например, в сценарии приложения, устанавливаются 10 слоев фильтрации документов, но во время поиска, выполняемого пользователем, не требуется выполнения фильтрации документов на многих слоях, например, может потребоваться только 5 слоев фильтрации документов, и может быть установлено, что когда выполняется пятый слой фильтрации документов, фильтрация останавливается. В данном случае, когда определяется, что номер слоя у текущего слоя равен 5, фильтрация останавливается после того, как фильтруются документы текущего слоя.

На каждом слое фильтрации документов, когда определяется, в соответствии с номером слоя у текущего слоя фильтрации документов или в соответствии с количеством документов в отфильтрованном фильтруемом наборе документов, что удовлетворяется предварительно установленное условие остановки, документы в отфильтрованном фильтруемом наборе документов определяются в качестве результата поиска. Когда определяется, что предварительно установленное условие остановки не удовлетворяется, отфильтрованный фильтруемый набор документов используется в качестве нового набора документов и новый набор документов фильтруется на нижерасположенном слое фильтрации документов посредством использования способа, предоставленного посредством данного варианта осуществления настоящего изобретения, до тех пор, пока не будет удовлетворено предварительно установленное условие остановки.

Для того, чтобы лучше понять эффект способа иерархической фильтрации документов, предоставленный посредством данного варианта осуществления настоящего изобретения в отношении снижения накладных расходов на вычисления, ниже в качестве примера предоставляется описание.

Например, предполагается, что суммарно существует три слоя фильтрации документов. Первому слою фильтрации документов требуется осуществить вычисление в отношение 100 тысяч документов, выбрать из них наилучшие 5000 документов, и предоставить наилучшие 5000 документов второму слою фильтрации документов. Второй слой фильтрации документов выбирает наилучшие 200 документов из 5000 документов, и предоставляет наилучшие 200 документов третьему слою фильтрации документов. Предполагается, что эксплуатационные расходы на осуществление вычисления в отношении одного документа посредством первого слоя фильтрации документов составляют 1, эксплуатационные расходы на осуществление вычисления в отношении одного документа посредством второго слоя фильтрации документов составляют 10, и эксплуатационные расходы на осуществление вычисления в отношении одного документа посредством третьего слоя фильтрации документов составляют 50.

Если вычисление выполняется непосредственно слой за слоем посредством использования существующего способа фильтрации документов, суммарные затраты составляют 100000*1+5000*10+200*50=160000. Тем не менее, если следуют способу иерархической фильтрации документов, предоставленному посредством данного варианта осуществления настоящего изобретения, второй слой фильтрации документов делит 5000 документов на подмножества документов в соответствии с размером равным 200, посредством деления получается суммарно 25 подмножеств документов, 20 документов выбираются из каждого подмножества документов, и для вычисления релевантности выбирается суммарно 500 документов. Предполагается, что в оптимальной ситуации, т.е., результат упорядочивания первого слоя фильтрации документов по сути является точно таким же, как результат упорядочивания второго слоя фильтрации документов, второй слой фильтрации документов может непосредственно пересылать первые 200 из 5000 документов в третий слой фильтрации документов. Таким образом, суммарные затраты на вычисление составляют: 100000*1+500*10+200*50=115000. В сравнении с существующим способом фильтрации документов, способ иерархической фильтрации документов, предоставленный данным вариантом осуществления настоящего изобретения, повышает эффективность на приблизительно (16-11.5)/16=28%. Можно заметить, что способ, предоставленный данным вариантом осуществления настоящего изобретения, является весьма впечатляющим в отношении вклада в сокращение времени поиска и снижении накладных расходов на вычисления.

В данном варианте осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может быть отфильтрован в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске и снижаются накладные расходы на вычисления.

Вариант 2 Осуществления

Обращаясь к Фиг. 2, данный вариант осуществления настоящего изобретения предоставляет устройство иерархической фильтрации. Устройство выполнено с возможностью исполнения вышеупомянутого способа иерархической фильтрации. Устройство включает в себя: модуль 201 выбора, модуль 202 вычисления, модуль 203 упорядочивания, и модуль 204 фильтрации.

Модуль 201 выбора выполнен с возможностью выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формирования первого списка документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов.

Фильтруемый набор документов текущего слоя фильтрации документов является набором документов, сформированный документами, которые остаются после фильтрации, выполняемой на вышерасположенном слое фильтрации документов. Документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов вышерасположенного слоя фильтрации документов. Т.е., во время фильтрации на вышерасположенном слое фильтрации документов, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и документы в фильтруемом наборе документов упорядочиваются в соответствии с предварительно установленной упорядоченностью значений качества. Предварительно установленная упорядоченность может быть упорядоченностью по убыванию значений качества или упорядоченностью по возрастанию значений качества.

Способ вычисления релевантности состоит в том, что значение качества документа вычисляется посредством использования предварительно установленного алгоритма в соответствии с некоторым количеством признаков, и в данном варианте осуществления настоящего изобретения, соответствующий способ вычисления релевантности конфигурируется для каждого слоя. Предварительно установленный алгоритм может быть алгоритмом ранжирования релевантности, таким как алгоритм BM25. Значение качества может указывать на то, является ли качество документа хорошим или низким. Большее значение качестве указывает более высокое качество документа, и меньшее значение качества указывает более низкое качество документа. Признаки, используемые способом вычисления релевантности, могут быть признаками, такими как длина документа и количество раз или частота, с которой ключевое слово встречается в документе. В данном варианте осуществления настоящего изобретения, количество признаков, используемых способом вычисления релевантности каждого слоя, разное, количество признаков, используемое более высоким слоем фильтрации, больше, и признаки, используемые каждым слоем могут быть предварительно установленными.

В данном варианте осуществления настоящего изобретения, предварительно установленная стратегия отбора образцов может включать в себя количество документов, выбираемых из фильтруемого набора документов текущего слоя фильтрации документов, и способ выбора. Способ выбора может быть случайным выбором документов, выбором документов из передней части фильтруемого набора документов, выбором документов с предварительно определенным интервалом, или подобным. Количество выбранных документов связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может включать в себя предварительно установленный коэффициент выбора.

Модуль 201 выбора может выбирать несколько документов из фильтруемых документов посредством использования первого блока определения, блока деления, и первого блока выбора ниже, что в частности включает:

Первый блок определения определяет, в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого подмножества документов; блок деления делит фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и первый блок выбора выбирает второе количество документов из каждого подмножества документов соответственно, чтобы получить несколько документов.

Первый блок выбора может выбирать документы из каждого подмножества документов соответственно посредством выбора использования первого субблока выбора, второго субблока выбора, или третьего субблока выбора.

Первый субблок выбора выбирает второе количество документов из передней части каждого подмножества документов соответственно; второй субблок выбора выбирает второе количество документов из каждого подмножества документов с предварительно определенным интервалом соответственно; и третий субблок выбора выбирает второе количество документов из каждого подмножества документов соответственно случайным образом.

Непосредственный выбор документов из передних частей подмножеств документов обеспечивает быстрый выбор второго количества документов из каждого подмножества документов, тем самым сокращая время выбора документов из фильтруемого набора документов. Выполнение выбора с предварительно определенным интервалом или выполнение случайного выбора обеспечивает равномерный выбор документов из каждого подмножества документов, так что итоговый формируемый первый список документов может лучше представлять фильтруемый набор документов.

В данном варианте осуществления настоящего изобретения, когда документы выбираются из фильтруемого набора документов текущего слоя фильтрации документов посредством использования способа разнесенного отбора образцов, если документы выбираются с предварительно определенным интервалом, когда количество документов в фильтруемом наборе документов текущего слоя фильтрации документов является очень большим, большое количество документов выбираются из фильтруемого набора документов, и, как результат, объем вычислений по-прежнему является очень большим, когда последующая обработка фильтрации выполняется в соответствии со сформированным первым списком документов. Вследствие этого, во время разнесенного отбора образцов, интервал отбора образцов может быть адаптирован к количеству документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов. Большее количество документов приводит к большему интервалу отбора образцов, а меньшее количество документов приводит к меньшему интервалу отбора образцов.

Соответственно, в дополнение к выбору нескольких документов из фильтруемых документов посредством использования первого блока определения, блока деления, и первого блока выбора в вышеупомянутом, модуль 201 выбора может дополнительно выбирать несколько документов посредством использования второго блока определения и второго блока выбора ниже, что в частности включает:

Второй блок определения определяет интервал отбора образцов документов в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и второй блок выбора выбирает документы из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Модуль 202 вычисления выполнен с возможностью вычисления значения качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

Модуль 203 упорядочивания выполнен с возможностью переупорядочивания документов в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов;

Способ упорядочивания документов во втором списке документов, полученном посредством переупорядочивания, является точно таким же, как способ упорядочивания документов в первом списке документов. Разница состоит в том, что документы в первом списке документов упорядочены в соответствии со значениями качества на вышерасположенном слое фильтрации документов, а документы во втором списке документов упорядочены в соответствии со значениями качества на текущем слое фильтрации документов. Вследствие этого, если упорядоченность размещения документов в первом списке документов является очень близкой или точно такой же, как упорядоченность размещения документов во втором списке документов, это указывает на то, что результат упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, является очень близким к результату упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и в данном случае, не требуется выполнять обработку вычисления над каждым документом в фильтруемом наборе документов на текущем слое фильтрации документов.

Модуль 204 фильтрации выполнен с возможностью фильтрации фильтруемого набора документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Модуль 204 фильтрации фильтрует фильтруемый набор документов текущего слоя фильтрации документов посредством использования блока вычисления и блока фильтрации ниже, что в частности включает:

Блок вычисления вычисляет степень согласованности между первым списком документов и вторым списком документов. Блок фильтрации определяет, является ли степень согласованности больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывает документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисляет значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивает документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывает документы, удовлетворяющие предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

В данном варианте осуществления настоящего изобретения, правдоподобность упорядоченности размещения документов в фильтруемом наборе документов определяется в соответствии со степенью согласованности между первым списком документов и вторым списком документов; когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, непосредственно фильтруется фильтруемый набор документов; и лишь когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов неправдоподобная, требуется вычисление значения качества каждого документа в фильтруемом наборе документов. Таким образом, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, количество документов, в отношении которых должно быть осуществлено вычисление на текущем слое фильтрации документов, может быть значительно сокращено.

В процессе поиска документов, фильтруемый набор документов может фильтроваться на каждом слое фильтрации в соответствии с операцией модуля 201 выбора, модуля 202 вычисления, модуля 203 упорядочивания, и модуля 204 фильтрации, так что, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная на нескольких слоях, количество документов, в отношении которых должно быть осуществлено вычисление во всем процессе поиска, может быть значительно сокращено, снижаются накладные расходы на вычисления и сокращается время ответа при поиске.

В дополнение, в данном варианте осуществления настоящего изобретения, предварительно устанавливается условие остановки фильтрации, и предварительно установленным условием остановки фильтрации может быть: когда номер слоя текущего слоя фильтрации документов достигает предварительно установленного номера слоя, поиск останавливается. В качестве альтернативы, предварительно установленным условием остановки может быть: когда количество документов в отфильтрованном фильтруемом наборе документов меньше, чем некоторое значение, поиск останавливается. Устройство иерархической фильтрации, предоставленное данным вариантом осуществления настоящего изобретения, определяет, посредством использования модуля оценки остановки ниже, остановить ли поиск.

Модуль оценки остановки определяет, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определяет документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, использует отфильтрованный фильтруемый набор документов в качестве нового набора документов, и фильтрует новый набор документов посредством использования нижерасположенного слоя фильтрации документов.

В данном варианте осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может быть отфильтрован в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске и снижаются накладные расходы на вычисления.

Устройство иерархической фильтрации, предусмотренное данным вариантом осуществление настоящего изобретения, может быть особым аппаратным обеспечением на устройстве, программным обеспечением или встроенным программным обеспечением, инсталлированным на устройстве, или подобным. Специалистам в соответствующей области техники может быть четко понятно, что в целях удобства и краткости описания, в отношении подробного рабочего процесса вышеупомянутого устройства, модуля, и блока, можно обратиться к соответствующему процессу в вышеупомянутых вариантах осуществления способа.

В вариантах осуществления, предоставленных в настоящей заявке, должно быть понятно, что раскрываемое устройство и способ могут быть реализованы другими путями. Описанный вариант осуществления устройства является лишь иллюстративным. Например, деление на блоки является лишь логическим функциональным делением и может быть другое деление при фактической реализации. Например, множество блоков или компонентов может быть объединено или интегрировано в другой системе, или некоторые признаки могут быть проигнорированы или не выполняться. В дополнение, отображенные или обсуждаемые взаимные связывания или непосредственные связывания или соединения связи могут быть реализованы посредством некоторых интерфейсов. Опосредованные связывания или соединения связи между устройствами или блоками могут быть реализованы в электронной, механической или других формах.

Блоки, описанные в качестве отдельных частей, могут быть или могут не быть физически отделены, а части отображенные в качестве блоков могут быть или могут не быть физическими блоками, могут быть расположены в одной позиции, или могут быть распределены по множеству сетевых блоков. Часть или все из блоков могут быть выбраны в соответствии с фактическими потребностями для достижения целей решений вариантов осуществления.

В дополнение, функциональные блоки в вариантах осуществления настоящего изобретения могут быть интегрированы в одном блоке обработки, или каждый из блоков может существовать отдельно физически, или два или более блока интегрированы в один блок.

Когда функции реализуются в форме функционального блока программного обеспечения и продаются или используются в качестве независимого продукта, функции могут быть сохранены на машиночитаемом запоминающем носителе информации. Исходя из такого понимания, технические решения настоящего изобретения, по существу, или часть, относящая к известному уровню техники, или некоторые из решений могут быть реализованы в форме продукта программного обеспечения. Продукт программного обеспечения хранится на запоминающем носителе информации, и включает в себя некоторое количество инструкций для указания компьютерному устройству (которое может быть персональным компьютером, сервером, сетевым устройством) выполнять все или некоторые из этапов способов, описанных в вариантах осуществления настоящего изобретения. Вышеупомянутый запоминающий носитель информации включает в себя: любой носитель информации, который может хранить код программы, такой как USB флэш-накопитель, съемный жесткий диск, постоянная память (ROM, Постоянная Память), память с произвольным доступом (RAM, Память с Произвольным Доступом), магнитный диск, или оптический диск.

Вышеупомянутые описания являются лишь особыми реализациями настоящего изобретения и не предназначены для того, чтобы ограничивать объем правовой охраны настоящего изобретения. Любая вариация или замена, легко понятная специалистам в соответствующей области техники в рамках технического объема, раскрываемого в настоящем изобретении, должна лежать в рамках объема правовой охраны настоящего изобретения. Вследствие этого, объем правовой охраны настоящего изобретения должен подчиняться объему правовой охраны, определяемому формулой изобретения.

1. Способ иерархической фильтрации документов, который отличается тем, что содержит этапы, на которых:

выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, при этом документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном иерархическом слое фильтрации документов;

вычисляют значение качества каждого документа в первом списке документов на текущем иерархическом слое фильтрации документов соответственно согласно способу вычисления релевантности для текущего иерархического слоя фильтрации документов;

переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов на текущем иерархическом слое фильтрации документов, чтобы получить второй список документов; и

фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

2. Способ по п. 1, который отличается тем, что этап, на котором выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, содержит этапы, на которых:

определяют, в соответствии с количеством документов, которые содержатся в фильтруемом наборе документов текущего иерархического слоя фильтрации документов, первое количество подмножеств документов, на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого из подмножеств документов;

делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

выбирают второе количество документов из каждого из подмножеств документов соответственно, чтобы получить упомянутые несколько документов.

3. Способ по п. 2, который отличается тем, что этап, на котором выбирают второе количество документов из каждого из подмножеств документов соответственно, содержит этапы, на которых:

выбирают второе количество документов из передней части каждого из подмножеств документов соответственно; или

выбирают второе количество документов из каждого из подмножеств документов с предварительно определенным интервалом, соответственно; или

выбирают второе количество документов из каждого из подмножеств документов соответственно случайным образом.

4. Способ по п. 1, который отличается тем, что этап, на котором выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, содержит этапы, на которых:

определяют интервал отбора образцов документов в соответствии с количеством документов, которые содержатся в фильтруемом наборе документов текущего иерархического слоя фильтрации документов; и

выбирают документы из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить упомянутые несколько документов.

5. Способ по п. 1, который отличается тем, что этап, на котором фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, содержит этапы, на которых:

оценивают, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности;

если да, отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации, в фильтруемом наборе документов текущего иерархического слоя фильтрации документов; и

если нет, вычисляют значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего иерархического слоя фильтрации документов, переупорядочивают документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества и отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации, в переупорядоченном фильтруемом наборе документов.

6. Способ по п. 1, который отличается тем, что после этапа, на котором фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, способ дополнительно содержит этапы, на которых:

оценивают, удовлетворяется ли предварительно установленное условие остановки фильтрации, в соответствии с номером слоя у текущего иерархического слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определяют документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, используют отфильтрованный фильтруемый набор документов в качестве нового набора документов и фильтруют этот новый набор документов посредством использования нижерасположенного иерархического слоя фильтрации документов.

7. Устройство иерархической фильтрации документов, которое отличается тем, что содержит:

модуль выбора, выполненный с возможностью выбирать несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формировать первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, при этом документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном иерархическом слое фильтрации документов;

модуль вычисления, выполненный с возможностью вычислять значение качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего иерархического слоя фильтрации документов;

модуль упорядочивания, выполненный с возможностью переупорядочивать документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

модуль фильтрации, выполненный с возможностью фильтровать фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

8. Устройство по п. 7, которое отличается тем, что модуль выбора содержит:

первый блок определения, выполненный с возможностью определять, в соответствии с количеством документов, которые содержатся в фильтруемом наборе документов текущего иерархического слоя фильтрации документов, первое количество подмножеств документов, на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого из подмножеств документов;

блок деления, выполненный с возможностью разделять фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

первый блок выбора, выполненный с возможностью выбирать второе количество документов из каждого из подмножеств документов, соответственно, чтобы получить упомянутые несколько документов.

9. Устройство по п. 8, которое отличается тем, что первый блок выбора содержит:

первый субблок выбора, выполненный с возможностью выбора второго количества документов из передней части каждого из подмножеств документов, соответственно; или

второй субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов с предварительно определенным интервалом, соответственно; или

третий субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно случайным образом.

10. Устройство по п. 7, которое отличается тем, что модуль выбора содержит:

второй блок определения, выполненный с возможностью определения интервала отбора образцов документов в соответствии с количеством документов, которые содержатся в фильтруемом наборе документов текущего иерархического слоя фильтрации документов; и

второй блок выбора, выполненный с возможностью выбора документов из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить упомянутые несколько документов.

11. Устройство по п. 7, которое отличается тем, что модуль фильтрации содержит:

блок фильтрации, выполненный с возможностью определять, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывать документы, удовлетворяющие предварительно установленному условию фильтрации, в фильтруемом наборе документов текущего иерархического слоя фильтрации документов; и если нет, вычислять значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего иерархического слоя фильтрации документов, переупорядочивать документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества и отфильтровывать документы, удовлетворяющие предварительно установленному условию фильтрации, в переупорядоченном фильтруемом наборе документов.

12. Устройство по п. 7, которое отличается тем, что устройство дополнительно содержит:

модуль оценки остановки, выполненный с возможностью определять, удовлетворяется ли предварительно установленное условие остановки фильтрации, в соответствии с номером слоя у текущего иерархического слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определять документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, использовать отфильтрованный фильтруемый набор документов в качестве нового набора документов и фильтровать этот новый набор документов посредством использования нижерасположенного иерархического слоя фильтрации документов.



 

Похожие патенты:

Изобретение относится к компьютерным и сетевым. Технический результат - снижение рисков, возникающих при несоответствии поведения программно-конфигурируемых сетей (ПКС) предъявляемым к ним требованиям.

Изобретение относится к кодированию и декодированию видео. Технический результат изобретения заключается в возможности предотвращения переполнения выходных данных при вспомогательных операциях процесса декодирования.

Изобретение относится к модульным серверам системы платежно-коммуникационных связей для обслуживания клиентов при осуществлении коммерческих сделок. Технический результат заключается в повышении скорости выполнения операций.

Изобретение относится к инициированию поиска и ранжированию контента нативного приложения. Технический результат заключается в повышении точности обработки данных.

Изобретение относится к вычислительной технике. Технический результат заключается в уменьшении ресурсоемкости поиска информации в массивах видеоданных на основе фасетной классификации.

Изобретение относится к определению исходной ссылки. Технический результат - уменьшение потребления энергии и повышение эффективности использования пропускной способности канала.

Изобретение относится к области формирования системы хранения, обработки и интеллектуального анализа больших массивов данных астрономических наблюдений. Техническим результатом является обеспечение возможности повышения эффективности статистической обработки, а также инкрементальной обработки данных.

Изобретение относится к вычислительной технике. Технический результат заключается в сокращении времени унификации предикатов, обеспечивается блоком унификации с параллельным сопоставлением термов, содержащим внутреннюю рабочую память, входами соединеную с входной шиной данных, и выходом узла диспетчеризации, а выходы соединены с входом узла сопоставления переменных, входом узла сопоставления имен предикатов и входами узлов сопоставления термов, узел управления входами соединен с входной шиной управления, выходом узла сопоставления переменных, выходом узла сопоставления имен предикатов и выходами узлов сопоставления термов, узел диспетчеризации, входами соединенный с выходами узлов сопоставления термов, а выходы соединены с входом внутренней рабочей памяти и входами узлов сопоставления термов, узел сопоставления имен предикатов входом соединен с выходом внутренней рабочей памяти, а выход соединен с входом узла управления, узлы сопоставления термов, входы которых соединены с выходами внутренней рабочей памяти и выходами узла диспетчеризации, а выходы соединены с входами узла управления, входами узла согласования переменных и входами узла диспетчеризации, узел согласования переменных входами соединенный с выходами узлов сопоставления термов и выходом внутренней рабочей памяти.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности визуализации веб-страниц.

Изобретение относится к передаче Интернет-трафика между пользователями. Техническим результатом является обеспечение возможности обмена между пользователями неизрасходованным Интернет-трафиком.

Изобретение относится к инициированию поиска и ранжированию контента нативного приложения. Технический результат заключается в повышении точности обработки данных.

Изобретение относится к инициированию поиска и ранжированию контента нативного приложения. Технический результат заключается в повышении точности обработки данных.

Изобретение относится к вычислительной технике. Технический результат заключается в уменьшении ресурсоемкости поиска информации в массивах видеоданных на основе фасетной классификации.

Изобретение относится к вычислительной технике. Технический результат заключается в уменьшении ресурсоемкости поиска информации в массивах видеоданных на основе фасетной классификации.

Изобретение относится к определению исходной ссылки. Технический результат - уменьшение потребления энергии и повышение эффективности использования пропускной способности канала.

Изобретение относится к определению исходной ссылки. Технический результат - уменьшение потребления энергии и повышение эффективности использования пропускной способности канала.

Изобретение относится к области формирования системы хранения, обработки и интеллектуального анализа больших массивов данных астрономических наблюдений. Техническим результатом является обеспечение возможности повышения эффективности статистической обработки, а также инкрементальной обработки данных.

Изобретение относится к области формирования системы хранения, обработки и интеллектуального анализа больших массивов данных астрономических наблюдений. Техническим результатом является обеспечение возможности повышения эффективности статистической обработки, а также инкрементальной обработки данных.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности визуализации веб-страниц.

Изобретение относится к средствам управления скачиванием файла в облачном сервисе хранения. Технический результат заключается в повышении стабильности работы серверов облачного хранилища.

Изобретение относится к области информационных технологий. Технический результат направлен на сокращение количественного повторения push-информации в случае идентичности их контента на панели управления. Способ обработки информации включает определение посредством сравнения, когда мобильным терминалом получена push-информация, имеется ли целевая push-информация на панели уведомления, добавление информационного контента push-информации и времени получения push-информации на панель уведомления, если на панели уведомления нет целевой push-информации, и обновление, если на панели уведомления есть целевая push-информация. При этом обеспечивается указание только времени получения push-информации, без повторной замены полученного контента. 3 н. и 8 з.п. ф-лы, 14 ил.

Изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов. Техническим результатом является сокращение времени ответа при поиске и снижение расходов на вычисление. В способе иерархической фильтрации документов выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формируют первый список документов. Вычисляют значение качества каждого документа в первом списке документов. Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа, чтобы получить второй список документов. Фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов. В соответствии с изобретением фильтруется фильтруемый набор документов текущего слоя фильтрации документов, так что значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. 2 н. и 10 з.п. ф-лы, 3 ил.

Наверх