Способ и устройство извлечения тематических предложений веб-страниц - заявка 2016145396 на патент на изобретение в РФ

1. Способ извлечения тематических предложений веб-страниц, включающий в себя этапы, на которых:
получают возможные веб-страницы и предварительно построенную модель машинного обучения, причем каждая возможная веб-страница содержит множество предварительно отобранных возможных тематических предложений, причем каждое возможное тематическое предложение содержит несколько словесных сегментов;
определяют значения словесных характеристик, указывающие на уровни важности словесных сегментов в каждой возможной веб-странице соответственно, и вводят упомянутые значения словесных характеристик в модель машинного обучения для получения значения важности для каждого словесного сегмента;
для каждой возможной веб-страницы определяют значение частичного порядка для каждого возможного тематического предложения в соответствии со значениями важности словесных сегментов, содержащихся в возможном тематическом предложении; и
для каждой возможной веб-страницы выбирают одно из множества возможных тематических предложений, связанное со значением частичного порядка, превышающим предварительно заданное пороговое значение, в качестве целевого тематического предложения возможной веб-страницы.
2. Способ по п. 1, дополнительно включающий в себя процесс предварительного построения модели машинного обучения, включающий в себя:
получение заголовков страниц множества образцов веб-страниц, причем каждый образец веб-страницы соответствует по меньшей мере одному запрашиваемому выражению для отбора образца веб-страницы, причем каждое запрашиваемое выражение связано с взвешенным значением для обозначения степени корреляции между запрашиваемым выражением и отобранным образцом веб-страницы;
вычисление значения метки для каждого словесного сегмента, содержащегося в каждом заголовке страницы;
определение значения словесной характеристики для каждого словесного сегмента, содержащегося в каждом заголовке страницы, причем значение словесной характеристики указывает на степень важности словесного сегмента в соответствующем образце веб-страницы; и
применение предварительно заданного алгоритма машинного обучения для изучения значений меток и значений словесных характеристик словесных сегментов в каждом заголовке страницы для получения модели машинного обучения.
3. Способ по п. 2, в котором
значение метки для каждого словесного сегмента, содержащегося в каждом заголовке страницы, вычисляют с применением следующей формулы:
в
которой выражениеj обозначает j-й словесный сегмент, содержащийся в заголовке страницы, метка (выражениеj) представляет собой значение метки словесного сегмента выражениеj, m представляет собой запрашиваемое выражение, k представляет собой суммарное количество запрашиваемых выражений, vm представляет собой взвешенное значение запрашиваемого выражения m, wm (выражениеj) представляет собой взвешенное значение словесного сегмента выражениеj для запрашиваемого выражения m, n представляет собой словесный сегмент в заголовке страницы, a s представляет собой суммарное количество словесных сегментов в заголовке страницы.
4. Способ по п. 2, в котором
предварительно заданный алгоритм машинного обучения представляет собой алгоритм обучения «GBRank»,
способ сравнения частичного порядка в упомянутом алгоритме обучения «GBRank» представляет собой попарное сравнение частичного порядка; и
функция потерь в алгоритме обучения «GBRank» представляет собой перекрестную энтропию.
5. Способ по п. 1, в котором определение значения частичного порядка для каждого возможного тематического предложения включает в себя:
вычисление для каждого возможного тематического предложения взвешенной суммы множества значений важности словесных сегментов, содержащихся в возможном тематическом предложении, в качестве значения частичного порядка возможного тематического предложения.
6. Способ по п. 1, дополнительно содержащий этапы, на которых:
устанавливают отношение соответствия между множеством целевых тематических предложений и множеством возможных веб-страниц; и
сохраняют упомянутое отношение соответствия в предварительно заданной базе данных.
7. Способ по п. 6, дополнительно содержащий этапы, на которых:
в ответ на поисковый запрос поисковой системы, определяют множество веб-страниц, отобранных поисковой системой, причем множество отобранных веб-страниц входит во множество возможных веб-страниц;
отбирают целевое тематическое предложение каждой отобранной веб-страницы из предварительно заданной базы данных и сопоставляют целевое тематическое предложение с поисковым запросом для получения для каждой отобранной веб-страницы значения соответствия; и
ранжируют множество отобранных веб-страниц на основе соответствующих значений соответствия.
8. Способ по п. 1, в котором определение значения словесной характеристики для каждого словесного сегмента включает в себя:
вычисление частоты выражения, обратной частоты документа, постоянного коэффициента попаданий и близости каждого словесного сегмента.
9. Устройство для извлечения тематических предложений веб-страниц, содержащее по меньшей мере один процессор, запоминающее устройство и по меньшей мере один программный модуль, хранящийся на запоминающем устройстве и предназначенный для исполнения посредством упомянутого по меньшей мере одного процессора, причем упомянутый по меньшей мере один программный модуль содержит:
модуль получения веб-страницы и модели, выполненный с возможностью получения возможной веб-страницы и предварительного построения модели машинного обучения, причем каждая возможная веб-страница содержит множество предварительно отобранных возможных тематических предложений, причем каждое возможное тематическое предложение включает в себя множество словесных сегментов;
модуль определения значения важности словесного сегмента, выполненный с возможностью определения значений словесных характеристик, указывающих на уровни важности словесных сегментов в каждой возможной веб-странице, и ввода значений словесных характеристик в модель машинного обучения для получения значения важности для каждого словесного сегмента;
модуль определения значения частичного порядка тематических предложений, выполненный с возможностью определения, для каждой возможной веб-страницы, значения частичного порядка для каждого возможного тематического предложения в соответствии со значениями важности словесных сегментов возможного тематического предложения, и
модуль определения тематического предложения, выполненный с возможностью выбора, для каждой возможной веб-страницы, одного из множества возможных тематических предложений, связанного со значением частичного порядка, превышающим предварительно заданное пороговое
значение, в качестве целевого тематического предложения возможной веб-страницы.
10. Устройство по п. 9, в котором упомянутый по меньшей мере один программный модуль дополнительно содержит:
модуль построения модели обучения, выполненный с возможностью предварительного построения модели машинного обучения, причем упомянутый модуль построения модели обучения содержит:
подмодуль получения заголовка образца веб-страницы, выполненный с возможностью получения заголовков веб-страниц множества образцов веб-страниц, причем каждый образец веб-страницы соответствует одному или нескольким запрашиваемым выражениям для отбора образца веб-страницы, причем каждое запрашиваемое выражение связано с взвешенным значением для обозначения степени корреляции между запрашиваемым выражением и отобранным образцом веб-страницы;
подмодуль вычисления значения метки словесных сегментов заголовка, выполненный с возможностью вычисления значения метки для каждого словесного сегмента, содержащегося в каждом заголовке страницы,
подмодуль вычисления значения словесной характеристики словесного сегмента заголовка, выполненный с возможностью определения значения словесной характеристики для каждого словесного сегмента, содержащегося в каждом заголовке страницы, причем значение словесной характеристики указывает на степень важности словесного сегмента в соответствующем образце веб-страницы, и
подмодуль машинного обучения, выполненный с возможностью применения предварительно заданного алгоритма машинного обучения для изучения значений меток и значений словесных характеристик словесных сегментов в каждом заголовке страницы для получения модели машинного обучения.
11. Устройство по п. 10, в котором:
значение метки для каждого словесного сегмента, содержащегося в каждом заголовке страницы вычисляется с применением следующей формулы
в
которой выражениеj обозначает j-й словесный сегмент, содержащийся в заголовке страницы, метка (выражениеj) представляет собой значение метки словесного сегмента выражениеj, m представляет собой запрашиваемое выражение, k представляет собой суммарное количество запрашиваемых выражений, vm представляет собой взвешенное значение запрашиваемого выражения m, wm (выражениеj) представляет собой взвешенное значение словесного сегмента выражениеj для запрашиваемого выражения m, n представляет собой словесный сегмент в заголовке страницы, a s представляет собой суммарное количество словесных сегментов в заголовке страницы.
12. Устройство по п. 10, в котором:
предварительно заданный алгоритм машинного обучения представляет собой алгоритм обучения «GBRank»,
способ сравнения частичного порядка в упомянутом алгоритме обучения «GBRank» представляет собой попарное сравнение частичного порядка; и
функция потерь в алгоритме обучения «GBRank» представляет собой перекрестную энтропию.
13. Устройство по п. 10, в котором модуль определения значения частичного порядка тематических предложений включает в себя:
подмодуль определения значения частичного порядка взвешенной суммы, выполненный с возможностью вычисления для каждого возможного тематического предложения взвешенной суммы множества значений
важности словесных сегментов, содержащихся в возможном тематическом предложении, в качестве значения частичного порядка возможного тематического предложения.
14. Устройство по п. 10, в котором упомянутый по меньшей мере один программный модуль дополнительно содержит:
модуль хранения тематических предложений, выполненный с возможностью:
установления отношения соответствия между множеством целевых тематических предложений и множеством возможных веб-страниц, и
сохранения упомянутого отношения соответствия в предварительно заданной базе данных.
15. Устройство по п. 14, в котором упомянутый по меньшей мере один программный модуль дополнительно содержит:
модуль определения отобранных веб-страниц, выполненный с возможностью определения, в ответ на поисковый запрос поисковой системы, множества веб-страниц, отобранных поисковой системой, причем множество отобранных веб-страниц входит во множество возможных веб-страниц,
модуль сопоставления тематических предложений веб-страниц, выполненный с возможностью отбора целевого тематического предложения каждой отобранной веб-страницы из предварительно заданной базы данных, и сопоставления целевого тематического предложения с поисковым запросом для получения значения соответствия для каждой отобранной веб-страницы, и
модуль ранжирования отобранных веб-страниц, выполненный с возможностью ранжирования множества отобранных веб-страниц на основе соответствующих значений соответствия.
16. Устройство по п. 9, в котором модуль определения значения важности словесного сегмента дополнительно выполнен с возможностью:
вычисления частоты выражения, обратной частоты документа, постоянного коэффициента попаданий и близости каждого словесного сегмента.
17. Долговременное машиночитаемое запоминающее устройство, содержащее машиночитаемую программу, хранящуюся в нем, причем упомянутая машиночитаемая программа при исполнении обеспечивает осуществление компьютером способа извлечения тематических предложений веб-страниц, причем упомянутый способ содержит этапы, на которых:
определяют значения словесных характеристик, указывающие на уровни важности словесных сегментов в каждой возможной веб-странице соответственно, и вводят упомянутые значения словесных характеристик в модель машинного обучения для получения значения важности для каждого словесного сегмента;
для каждой возможной веб-страницы определяют значение частичного порядка для каждого возможного тематического предложения в соответствии со значениями важности словесных сегментов, содержащихся в возможном тематическом предложении; и
для каждой возможной веб-страницы выбирают одно из множества возможных тематических предложений, связанное со значением частичного порядка, превышающим предварительно заданное пороговое значение, в качестве целевого тематического предложения возможной веб-страницы.
18. Долговременное машиночитаемое запоминающее устройство по п. 17, дополнительно содержащее процесс предварительного построения модели машинного обучения, включающий в себя:
получение заголовков страниц множества образцов веб-страниц, причем каждый образец веб-страницы соответствует по меньшей мере одному запрашиваемому выражению для отбора образца веб-страницы, причем каждое запрашиваемое выражение связано с взвешенным значением
для обозначения степени корреляции между запрашиваемым выражением и отобранным образцом веб-страницы;
вычисление значения метки для каждого словесного сегмента, содержащегося в каждом заголовке страницы с применением следующей формулы:
, в которой выражениеj обозначает j-й словесный сегмент, содержащийся в заголовке страницы, метка (выражениеj) представляет собой значение метки словесного сегмента выражениеj, m представляет собой запрашиваемое выражение, k представляет собой суммарное количество запрашиваемых выражений, vm представляет собой взвешенное значение запрашиваемого выражения m, wm (выражениеj) представляет собой взвешенное значение словесного сегмента выражениеj для запрашиваемого выражения m, n представляет собой словесный сегмент в заголовке страницы, a s представляет собой суммарное количество словесных сегментов в заголовке страницы;
определение значения словесной характеристики для каждого словесного сегмента, содержащегося в каждом заголовке страницы, причем значение словесной характеристики указывает на степень важности словесного сегмента в соответствующем образце веб-страницы; и
применение предварительно заданного алгоритма машинного обучения для изучения значений меток и значений словесных характеристик словесных сегментов в каждом заголовке страницы для получения модели машинного обучения.
19. Долговременное машиночитаемое запоминающее устройство по п. 18, в котором
предварительно заданный алгоритм машинного обучения представляет собой алгоритм обучения «GBRank»,
способ сравнения частичного порядка в упомянутом алгоритме обучения «GBRank» представляет собой попарное сравнение частичного порядка;
функция потерь в алгоритме обучения «GBRank» представляет собой перекрестную энтропию;
для каждого возможного тематического предложения предусмотрено вычисление взвешенной суммы множества значений важности словесных сегментов, содержащихся в возможном тематическом предложении, в качестве значения частичного порядка возможного тематического предложения.
20. Долговременное машиночитаемое запоминающее устройство по п. 17, отличающееся тем, что упомянутый способ дополнительно предусматривает:
установление отношения соответствия между множеством целевых тематических предложений и множеством возможных веб-страниц, и
сохранение упомянутого отношения соответствия в предварительно заданной базе данных,
в ответ на поисковый запрос поисковой системы, определение множества веб-страниц, отобранных поисковой системой, причем множество отобранных веб-страниц входит во множество возможных веб-страниц;
отбирание целевого тематического предложения каждой отобранной веб-страницы из предварительно заданной базы данных и сопоставление целевого тематического предложения с поисковым запросом для получения для каждой отобранной веб-страницы значения соответствия; и
ранжирование множества отобранных веб-страниц на основе соответствующих значений соответствия.
Наверх