Патенты автора Даниелян Татьяна Владимировна (RU)

Изобретение относится к способу, машиночитаемому носителю данных и системе извлечения данных из структурированного документа. Технический результат заключается в повышении точности формирования объекта структурированного документа за счет дополнительного анализа таблицы и модификации формируемого объекта данных, представленного таблицей, на основе этого анализа. Способ заключается в получении вычислительным устройством таблицы, содержащей текст на естественном языке, идентификации заголовка таблицы и множества ячеек, образующих строки и столбцы, выполнении семантико-синтаксического анализа текста на естественном языке для получения множества семантических структур, интерпретации множества семантических структур с использованием первого набора продукционных правил для получения объекта данных, представленного таблицей, где продукционные правила этого набора включают логические выражения, определенные на структурных шаблонах, выполнении анализа заголовка таблицы для определения множества онтологических классов, ассоциированных с соответствующими столбцами таблицы, и модификации объекта данных, представленного таблицей, используя второй набор продукционных правил, где продукционные правила этого набора связаны с онтологическими классами, ассоциированными со столбцами указанной таблицы. 3 н. и 15 з.п. ф-лы, 19 ил.

 


Наверх