Патенты автора Колотиенко Сергей Сергеевич (RU)

Изобретение в целом относится к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение эффективности извлечения информации за счет сокращения времени предобработки документов и повышение точности извлекаемой информации. В способе автоматической сегментации текстового документа выполняют сегментацию для разметки неразмеченного целевого текста для получения множества целевых сегментов-кандидатов, принадлежащих к типам сегментов из множества типов сегментов. Выявляют атрибуты целевого текста в первом целевом сегменте-кандидате из множества целевых сегментов-кандидатов. Анализируют атрибуты целевого текста в первом целевом сегменте-кандидате с использованием первого классификатора типа сегмента из множества классификаторов для определения первого целевого сегмента-кандидата как имеющего первый тип сегмента. Причем первый классификатор типа сегмента был обучен определять сегменты как соответствующие первому типу сегментов на размеченном тексте. Анализируют текст первого целевого сегмента-кандидата исходя из отнесения первого целевого сегмента-кандидата к первому типу сегментов. 3 н. и 15 з.п. ф-лы, 4 ил.

Изобретение относится к средством проецирования разметки документа. Технический результат заключается в повышении эффективности извлечения информации за счет сокращения времени предобработки и в повышении точности извлекаемой информации. Получают целевой документ, содержащий текстовый контент. Определяют набор похожих документов с использованием индекса сохраненных документов, при этом набор похожих документов похож на целевой документ. Выбирают первый похожий документ из набора похожих документов, который наиболее похож на целевой документ. Определяют одну или более частей текстового контента в первом похожем документе, отличающихся от соответствующих одной или более частей текстового контента в целевом документе. Определяют первое положение первой разметки в первом похожем документе. Определяют проецируемую разметку для целевого документа с учетом одного или более различий между первой частью текстового контента первого похожего документа и соответствующей частью текстового контента целевого документа и сохраняют проецируемую разметку для целевого документа. 3 н. и 27 з.п. ф-лы, 8 ил.

Изобретение относится к системам и способам обработки естественного языка. Техническим результатом является повышение точности выполнения классификации текстов, в том числе на различных языках. В способе классификации текстов на естественном языке семантико-синтаксический анализ текста на естественном языке для создания семантической структуры, включающей набор семантических классов. Связывают первый семантический класс с первым значением, отражающим значение некоторого атрибута семантического класса. Выявляют второй семантический класс, связанный с первым семантическим классом заданными семантическими отношениями, и связывают его со вторым значением, отражающим указанный атрибут семантического класса. При этом второе значение определяется применением заданной трансформации к первому значению. Вычисляют признак текста на естественном языке на основе первого значения и второго значения и определяют с помощью модели классификатора с помощью вычисленного признака текста степени соотнесения текста на естественном языке с конкретной категорией из заданного набора категорий. 3 н. и 17 з.п. ф-лы, 15 ил.

Изобретение относится в целом к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение точности результатов классификации. Для оценки параметров текстовых классификаторов на основе семантических признаков выполняют с помощью устройства обработки семантико-синтаксический анализ текста на естественном языке из корпуса текстов на естественном языке для создания семантической структуры, представляющей набор семантических классов. Выявляют признак текста на естественном языке, извлекаемый на основе набора значений из множества параметров извлечения признаков. Разделяют корпус текстов на естественном языке на обучающую выборку данных, включающую первое множество текстов на естественном языке, и тестовую выборку, включающую второе множество текстов на естественном языке. Определяют набор значений параметров извлечения признаков с учетом категории обучающей выборки. Оценивают полученный набор значений параметров извлечения признаков с помощью тестовой выборки. 4 н. и 16 з.п. ф-лы, 15 ил.

 


Наверх