Понимание таблиц для поиска - заявка 2016152191 на патент на изобретение в РФ

1. Способ детектирования одного или более предметных столбцов таблицы, содержащий этапы, на которых:
выбирают заданное количество столбцов из таблицы в качестве предметных столбцов-кандидатов, причем каждый предметный столбец-кандидат является подходящим для предметного столбца таблицы, при этом каждый предметный столбец-кандидат включает в себя множество значений;
для каждого предметного столбца-кандидата:
идентифицируют случаи, когда любое значение из множества значений образует пару с одним или более наименованиями столбцов во множестве других таблиц, и
вычисляют оценку для предметного столбца-кандидата на основе идентифицированных случаев, причем вычисленная оценка показывает правдоподобие того, что столбец-кандидат является предметным столбцом; и
выбирают по меньшей мере один из предметных столбцов-кандидатов в качестве предметного столбца таблицы согласно вычисленным оценкам.
2. Способ по п. 1, в котором при упомянутом выборе заданного количества столбцов из таблицы в качестве предметных столбцов-кандидатов выбирают заданное количество самых левых столбцов таблицы в качестве предметных столбцов-кандидатов.
3. Способ по п. 2, в котором при упомянутом выборе заданного количества самых левых столбцов таблицы в качестве предметных столбцов-кандидатов выбирают заданное количество самых левых нечисловых столбцов таблицы в качестве предметных столбцов-кандидатов.
4. Способ по п. 1, в котором при упомянутом выборе заданного количества столбцов из таблицы в качестве предметных столбцов-кандидатов выбирают заданное количество столбцов из таблицы в качестве предметных столбцов-кандидатов на основе определенности значений ячеек в заданном количестве столбцов.
5. Способ по п. 1, в котором при упомянутом выборе заданного количества столбцов из таблицы в качестве предметных столбцов-кандидатов выбирают заданное количество столбцов из реляционной таблицы.
6. Способ по п. 1, в котором при упомянутом выборе заданного количества столбцов из таблицы в качестве предметных столбцов-кандидатов выбирают заданное количество столбцов из веб-таблицы.
7. Способ по п. 1, в котором при упомянутой идентификации случаев, когда любое значение из множества значений образует пару с одним или более наименованиями столбцов во множестве других таблиц, идентифицируют случаи, когда любое значение из множества значений образует пару с одним или более наименованиями столбцов во множестве веб-таблиц.
8. Способ по п. 1, в котором при упомянутом выборе по меньшей мере одного из предметных столбцов-кандидатов в качестве предметного столбца таблицы выбирают множество предметных столбцов-кандидатов в качестве предметного столбца таблицы.
9. Реализуемый в вычислительной системе способ детектирования заголовка столбцов для таблицы, включающей в себя одну или более строк, содержащий этапы, на которых:
создают набор наименований-кандидатов столбцов для таблицы на основе данных, определяющих таблицу;
для каждого наименования-кандидата столбца в наборе наименований-кандидатов столбцов:
вычисляют частоту наименования-кандидата столбца для этого наименования-кандидата столбца посредством идентификации одной или более других таблиц из набора других таблиц, которые также содержат данное наименование-кандидат столбца в качестве наименования-кандидата столбца, и
вычисляют частоту наименования-некандидата столбца для упомянутого наименования-кандидата столбца посредством идентификации вторых одной или более других таблиц из набора других таблиц, которые содержат это наименование-кандидат столбца не в качестве наименования-кандидата столбца; и
выбирают строку таблицы в качестве заголовка столбцов, когда, по меньшей мере, заданное пороговое количество наименований-кандидатов столбцов, содержащихся в этой строке, имеют частоту наименования-кандидата столбца, которая является большей, чем частота наименования-некандидата столбца.
10. Способ по п. 9, дополнительно содержащий, перед созданием набора наименований-кандидатов столбцов, этап, на котором определяют, что данные, определяющие таблицу, не определяют явно заголовок столбцов.
11. Способ по п. 10, в котором при упомянутом определении того, что данные, определяющие таблицу, не определяют явно заголовок столбцов, определяют, что данные, определяющие таблицу, не включают в себя тег <th> языка разметки гипертекста (HTML) и не включают в себя тег <thead> языка разметки гипертекста (HTML).
12. Способ по п. 9, дополнительно содержащий, перед созданием набора наименований-кандидатов столбцов, этап, на котором определяют, что таблица не имеет явно определенного заголовка столбцов.
13. Способ по п. 9, в котором при упомянутом создании набора наименований-кандидатов столбцов для таблицы создают набор наименований-кандидатов столбцов для таблицы из наименований столбцов, включенных в первую строку таблицы.
14. Способ по п. 9, в котором при упомянутом создании набора наименований-кандидатов столбцов для таблицы создают набор наименований-кандидатов столбцов для реляционной веб-таблицы.
15. Способ по п. 9, в котором при упомянутом выборе строки таблицы в качестве заголовка столбцов выбирают первую строку таблицы в качестве заголовка столбцов.
16. Способ по п. 9, дополнительно содержащий этап, на котором увеличивают достоверность выбора строки таблицы в качестве заголовка столбцов путем получения посредством логического вывода того, что по меньшей мере один столбец выбранной строки является гиперонимом значений ячеек, содержащихся в этом по меньшей мере одном столбце.
17. Реализуемый в вычислительной системе способ детектирования заголовка столбцов для таблицы, включающей в себя одну или более строк, содержащий этапы, на которых:
создают набор наименований-кандидатов столбцов для таблицы;
посредством логического вывода получают, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в этом столбце, на основе значений ячеек, содержащихся в данном столбце; и
выбирают строку, содержащую упомянутый столбец, в качестве заголовка столбцов для таблицы.
18. Способ по п. 17, в котором при упомянутом получении посредством логического вывода того, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в столбце, посредством логического вывода получают, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в столбце, путем обращения к базе знаний.
19. Способ по п. 18, в котором при упомянутом получении посредством логического вывода того, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в столбце, путем обращении к базе знаний, извлекают один или более атрибутов концептов и один или более атрибутов примеров из базы знаний.
20. Способ по п. 18, дополнительно содержащий, перед выбором строки, содержащей столбец, в качестве заголовка столбцов для таблицы, этап, на котором определяют для другого столбца, включенного в набор наименований-кандидатов столбцов, что тип ячеек заголовка столбцов и тип ячеек других ячеек в столбце различаются.
21. Система, содержащая:
один или более процессоров;
системную память; и
один или более машиночитаемых носителей, на которых хранятся машиноисполняемые инструкции, представляющие детектор предметных столбцов, причем детектор предметных столбцов предназначен для детектирования одного или более предметных столбцов таблицы, при этом детектор предметных столбцов выполнен с возможностью:
выбирать заданное количество столбцов из таблицы в качестве предметных столбцов-кандидатов, причем каждый предметный столбец-кандидат является подходящим для предметного столбца таблицы, при этом каждый предметный столбец-кандидат включает в себя множество значений;
для каждого предметного столбца-кандидата:
идентифицировать случаи, когда любое значение из множества значений образует пару с одним или более наименованиями столбцов во множестве других таблиц, и
вычислять оценку для предметного столбца-кандидата на основе идентифицированных случаев, причем вычисленная оценка показывает правдоподобие того, что столбец-кандидат является предметным столбцом; и
выбирать по меньшей мере один из предметных столбцов-кандидатов в качестве предметного столбца таблицы согласно вычисленным оценкам.
22. Система по п. 21, в которой детектор предметных столбцов, будучи выполненным с возможностью выбора заданного количества столбцов из таблицы в качестве предметных столбцов-кандидатов, выполнен с возможностью выбирать заданное количество самых левых столбцов таблицы в качестве предметных столбцов-кандидатов.
23. Система по п. 21, в которой детектор предметных столбцов, будучи выполненным с возможностью выбора заданного количества столбцов из таблицы в качестве предметных столбцов-кандидатов, выполнен с возможностью выбирать заданное количество столбцов из таблицы в качестве предметных столбцов-кандидатов на основе определенности значений ячеек в заданном количестве столбцов.
24. Система по п. 21, в которой детектор предметных столбцов, будучи выполненным с возможностью идентификации случаев, когда любое значение из множества значений образует пару с одним или более наименованиями столбцов во множестве других таблиц, выполнен с возможностью идентифицировать случаи, когда любое значение из множества значений образует пару с одним или более наименованиями столбцов во множестве веб-таблиц.
25. Система по п. 21, в которой детектор предметных столбцов, будучи выполненным с возможностью выбора по меньшей мере одного из предметных столбцов-кандидатов в качестве предметного столбца таблицы, выполнен с возможностью выбирать множество предметных столбцов-кандидатов в качестве предметного столбца таблицы.
26. Система, содержащая:
один или более процессоров;
системную память; и
один или более машиночитаемых носителей, на которых хранятся машиноисполняемые инструкции, представляющие детектор заголовков столбцов, причем детектор предметных столбцов предназначен для детектирования одного или более предметных столбцов таблицы, при этом детектор предметных столбцов выполнен с возможностью:
создавать набор наименований-кандидатов столбцов для таблицы на основе данных, определяющих таблицу;
для каждого наименования-кандидата столбца в наборе наименований-кандидатов столбцов:
вычислять частоту наименования-кандидата столбца для этого наименования-кандидата столбца посредством идентификации одной или более других таблиц из набора других таблиц, которые также содержат данное наименование-кандидат столбца в качестве наименования-кандидата столбца, и
вычислять частоту наименования-некандидата столбца для упомянутого наименования-кандидата столбца посредством идентификации вторых одной или более других таблиц из набора других таблиц, которые содержат это наименование-кандидат столбца не в качестве наименования-кандидата столбца; и
выбирать строку таблицы в качестве заголовка столбцов, когда, по меньшей мере, заданное пороговое количество наименований-кандидатов столбцов, содержащихся в строке, имеют частоту наименования-кандидата столбца, которая является большей, чем частота наименования-некандидата столбца.
27. Система по п. 26, в которой детектор предметных столбцов дополнительно выполнен с возможностью, перед созданием набора наименований-кандидатов столбцов, определять, что таблица не имеет явно определенного заголовка столбцов.
28. Система по п. 26, в которой детектор предметных столбцов, будучи выполненным с возможностью создания набора наименований-кандидатов столбцов для таблицы, выполнен с возможностью создавать набор наименований-кандидатов столбцов для таблицы из наименований столбцов, включенных в первую строку таблицы.
29. Система по п. 26, в которой детектор предметных столбцов дополнительно выполнен с возможностью увеличивать достоверность выбора строки таблицы в качестве заголовка столбцов путем получения посредством логического вывода того, что по меньшей мере один столбец выбранной строки является гиперонимом значений ячеек, содержащихся в этом по меньшей мере одном столбце.
30. Система, содержащая:
один или более процессоров;
системную память; и
один или более машиночитаемых носителей, на которых хранятся машиноисполняемые инструкции, представляющие детектор заголовков столбцов, причем детектор предметных столбцов предназначен для детектирования одного или более предметных столбцов таблицы, при этом детектор предметных столбцов выполнен с возможностью:
создавать набор наименований-кандидатов столбцов для таблицы;
получать посредством логического вывода, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в этом столбце, на основе значений ячеек, содержащихся в данном столбце; и
выбирать строку, содержащую упомянутый столбец, в качестве заголовка столбцов для таблицы.
31. Система по п. 30, в которой детектор предметных столбцов, будучи выполненным с возможностью получать посредством логического вывода, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в столбце, выполнен с возможностью получать посредством логического вывода, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в этом столбце, путем обращения к базе знаний.
32. Система по п. 30, в которой детектор предметных столбцов, будучи выполненным с возможностью получать посредством логического вывода, что столбец, включенный в набор наименований-кандидатов столбцов, является гиперонимом значений ячеек, содержащихся в столбце, путем обращения к базе знаний, выполнен с возможностью извлекать один или более атрибутов концептов и один или более атрибутов примеров из базы знаний.
33. Система по п. 30, в которой детектор предметных столбцов дополнительно выполнен с возможностью, перед выбором строки, содержащей столбец, в качестве заголовка столбцов для таблицы, определять, для другого столбца, включенного в набор наименований-кандидатов столбцов, что тип ячеек заголовка столбцов и тип ячеек других ячеек в этом столбце различаются.
Наверх