Классификация документов с использованием многоуровневых сигнатур текста - заявка 2015142105 на патент на изобретение в РФ

1. Клиентская компьютерная система, содержащая по меньшей мере один процессор, конфигурированный для определения сигнатуры текста целевого электронного документа так, чтобы длина сигнатуры текста была ограничена между нижней границей и верхней границей, причем нижняя и верхняя границы предварительно определены, при этом определение сигнатуры текста содержит:
отбор множества лексем текста целевого электронного документа, при этом отбор множества лексем текста содержит:
отбор предварительного множества лексем текста целевого электронного документа;
определение счетчика предварительного множества лексем текста; и
в ответ, когда счетчик предварительного множества лексем текста превышает заданный порог, обрезание предварительного множества лексем текста для формирования отобранного множества лексем текста так, чтобы счетчик отобранного множества лексем не превышал заданного порога;
в ответ на отбор множества лексем текста, определение размера фрагмента сигнатуры в соответствии с верхней и нижней границами и в соответствии со счетчиком отобранного множества лексем текста;
определение множества фрагментов сигнатуры, причем каждый фрагмент сигнатуры множества фрагментов сигнатуры определен в соответствии с хешем отдельной лексемы текста отобранного множества лексем текста и каждый фрагмент сигнатуры содержит последовательность символов, длина которой выбрана равной размеру фрагмента сигнатуры; и
конкатенацию множества фрагментов сигнатуры для формирования сигнатуры текста.
2. Клиентская компьютерная система по п. 1, в которой указанный по меньшей мере один процессор дополнительно конфигурирован для:
отправки сигнатуры текста в серверную компьютерную систему; и
получения от серверной компьютерной системы целевой метки, определенной для целевого электронного документа, причем целевая метка указывает на категорию документов, к которой принадлежит целевой электронный документ, при этом определение целевой метки включает в себя:
извлечение эталонной сигнатуры из базы данных эталонных сигнатур, причем эталонная сигнатура определена для эталонного электронного документа, принадлежащего к указанной категории и эталонная сигнатура отобрана в соответствии с длиной эталонной сигнатуры так, чтобы длина эталонной сигнатуры была между верхней и нижней границами; и
определение, принадлежит ли целевой электронный документ к указанной категории в соответствии с результатом сравнения сигнатуры текста с эталонной сигнатурой.
3. Клиентская компьютерная система по п. 2, в которой указанная категория документов является категорией спама.
4. Клиентская компьютерная система по п. 2, в которой указанная категория документов является категорией мошеннических документов.
5. Клиентская компьютерная система по п. 1, в которой определение сигнатуры текста дополнительно содержит определение каждого символа последовательности символов в соответствии с отдельной группой битов хеша отдельной лексемы текста.
6. Клиентская компьютерная система по п. 1, в которой обрезание предварительного множества лексем текста содержит отбор целевой лексемы текста предварительного множества лексем текста в отобранное множество лексем текста в соответствии с хешем целевой лексемы текста.
7. Клиентская компьютерная система по п. 1, в которой обрезание предварительного множества лексем текста дополнительно содержит:
определение, делится ли хеш целевой лексемы текста на коэффициент уменьшения; и
в ответ, когда целевая лексема текста делится на коэффициент уменьшения, отбор целевой лексемы текста в отобранное множество лексем текста.
8. Клиентская компьютерная система по п. 1, в которой отбор множества лексем текста дополнительно содержит, когда счетчик предварительного множества лексем текста превышает заданный порог,
определение множества комплексных лексем текста, причем каждая комплексная лексема текста множества комплексных лексем текста содержит конкатенацию набора лексем текста предварительного множества лексем текста; и
отбор комплексной лексемы множества комплексных лексем в отобранное множество лексем текста в соответствии с хешем комплексной лексемы текста.
9. Клиентская компьютерная система по п. 1, в которой целевой электронный документ выбран из группы, включающей в себя сообщение электронной почты и документ языка разметки гипертекста (HTML).
10. Клиентская компьютерная система по п. 1, в которой отдельная лексема текста содержит элемент, отобранный из группы, включающей в себя слово, адрес электронной почты и унифицированный указатель ресурса (URL) целевой электронной коммуникации.
11. Серверная компьютерная система, содержащая по меньшей мере один процессор, конфигурированный для выполнения транзакций с множеством клиентских систем, причем транзакция содержит:
получение сигнатуры текста из клиентской системы множества клиентских систем, при этом сигнатура текста определена для целевого электронного документа так, чтобы длина сигнатуры текста была ограничена между нижней границей и верхней границей, причем нижняя и верхняя границы предварительно определены; и
отправку в клиентскую систему целевой метки, указывающей на категорию документов, к которой принадлежит целевой электронный документ,
при этом определение сигнатуры текста содержит:
отбор множества лексем текста целевого электронного документа, причем отбор множества лексем текста содержит:
отбор предварительного множества лексем текста целевого электронного документа;
определение счетчика предварительного множества лексем текста; и
в ответ, когда счетчик предварительного множества лексем текста превышает заданный порог, обрезание предварительного множества лексем текста для формирования отобранного множества лексем текста так, чтобы счетчик отобранного множества лексем не превышал заданный порог,
в ответ на отбор множества лексем текста, определение размера фрагмента сигнатуры в соответствии с верхней и нижней границами и в соответствии со счетчиком отобранного множества лексем текста;
определение множества фрагментов сигнатуры, причем каждый фрагмент сигнатуры множества фрагментов сигнатуры определен в соответствии с хешем отдельной лексемы текста отобранного множества лексем текста и каждый фрагмент сигнатуры содержит последовательность символов, длина которой выбрана равной размеру фрагмента сигнатуры; и
конкатенацию множества фрагментов сигнатуры для формирования сигнатуры текста,
при этом определение целевой метки содержит:
извлечение эталонной сигнатуры из базы данных эталонных сигнатур, причем эталонная сигнатура определена для эталонного электронного документа, принадлежащего к указанной категории, и эталонная сигнатура отобрана в соответствии с длиной эталонной сигнатуры так, чтобы длина эталонной сигнатуры была между верхней и нижней границами; и
определение, принадлежит ли целевой электронный документ к указанной категории в соответствии с результатом сравнения сигнатуры текста с эталонной сигнатурой.
12. Серверная компьютерная система по п. 11, в которой указанная категория документов является категорией спама.
13. Серверная компьютерная система по п. 11, в которой указанная категория документов является категорией мошеннических документов.
14. Серверная компьютерная система по п. 11, в которой определение сигнатуры текста дополнительно содержит определение каждого символа последовательности символов в соответствии с отдельной группой битов хеша отдельной лексемы текста.
15. Серверная компьютерная система по п. 11, в которой обрезание предварительного множества лексем текста содержит отбор целевой лексема текста предварительного множества лексем текста в отобранное множество лексем текста в соответствии с хешем целевой лексемы текста.
16. Серверная компьютерная система по п. 15, в которой обрезание предварительного множества лексем текста дополнительно содержит:
определение, делится ли хеш целевой лексемы текста на коэффициент уменьшения; и
в ответ, когда целевая лексема текста делится на коэффициент уменьшения, отбор целевой лексемы текста в отобранное множество лексем текста.
17. Серверная компьютерная система по п. 11, в которой отбор множества лексем текста дополнительно содержит, когда счетчик предварительного множества лексем текста превышает заданный порог:
определение множества комплексных лексем текста, причем каждая комплексная лексема текста множества комплексных лексем текста содержит конкатенацию набора лексем текста предварительного множества лексем текста; и
отбор комплексной лексемы множества комплексных лексем в отобранное множество лексем текста в соответствии с хешем комплексной лексемы текста.
18. Серверная компьютерная система по п. 11, в которой целевой электронный документ выбран из группы, включающей в себя сообщение электронной почты и документ языка разметки гипертекста (HTML).
19. Серверная компьютерная система по п. 11, в которой отдельная лексема текста содержит элемент, выбранный из группы, включающей в себя слово, адрес электронной почты и унифицированный указатель ресурса (URL) целевой электронной коммуникации.
20. Способ определения сигнатуры текста целевого электронного документа с использованием по меньшей мере одного процессора клиентской компьютерной системы, в котором длина сигнатуры текста ограничена между нижней границей и верхней границей, причем верхнюю и нижнюю границы определяют предварительно, при этом определение сигнатуры текста содержит:
отбор множества лексем текста целевого электронного документа,
причем отбор множества лексем текста содержит:
отбор предварительного множества лексем текста целевого электронного документа;
определение счетчика предварительного множества лексем текста; и
в ответ, когда счетчик предварительного множества лексем текста превышает заданный порог, обрезание предварительного множества лексем текста для формирования отобранного множества лексем текста так, чтобы счетчик отобранного множества лексем не превышал заданный порог,
в ответ на отбор множества лексем текста, определение размера фрагмента сигнатуры в соответствии с верхней и нижней границами и в соответствии со счетчиком отобранного множества лексем текста;
определение множества фрагментов сигнатуры, причем каждый фрагмент сигнатуры множества фрагментов сигнатуры определяют в соответствии с хешем отдельной лексемы текста отобранного множества лексем текста и каждый фрагмент сигнатуры содержит последовательность символов, длину которой выбирают равной размеру фрагмента сигнатуры; и
конкатенацию множества фрагментов сигнатуры для формирования сигнатуры текста.
21. Способ по п. 20, дополнительно содержащий использование указанного по меньшей мере одного процессора для определения категории документов, к которой принадлежит целевой электронный документ, в соответствии с сигнатурой текста.
22. Способ выполнения транзакций с множеством клиентских систем с использованием конфигурированного для этого по меньшей мере одного процессора серверной компьютерной системы, содержащий:
получение сигнатуры текста из клиентской системы множества клиентских систем, причем сигнатуру текста определяют для целевого электронного документа так, чтобы длина сигнатуры текста была ограничена между нижней границей и верхней границей, при этом нижнюю и верхнюю границы определяют предварительно; и
отправление в клиентскую систему целевой метки, определенной для целевого электронного документа, причем целевая метка указывает на категорию документов, к которой принадлежит целевой электронный документ,
при этом определение сигнатуры текста содержит:
отбор множества лексем текста целевого электронного документа,
причем отбор множества лексем текста содержит:
отбор предварительного множества лексем текста целевого электронного документа;
определение счетчика предварительного множества лексем текста; и
в ответ, когда счетчик предварительного множества лексем текста превышает заданный порог, обрезание предварительного множества лексем текста для формирования отобранного множества лексем текста так, чтобы счетчик отобранного множества лексем не превышал заданный порог,
в ответ на отбор множества лексем текста, определение размера фрагмента сигнатуры в соответствии с верхней и нижней границами и в соответствии со счетчиком отобранного множества лексем текста;
определение множества фрагментов сигнатуры, причем каждый фрагмент сигнатуры множества фрагментов сигнатуры определяют в соответствии с хешем отдельной лексемы текста отобранного множества лексем текста и каждый фрагмент сигнатуры содержит последовательность символов, длину которой выбирают равной размеру фрагмента сигнатуры; и
конкатенацию множества фрагментов сигнатуры для формирования сигнатуры текста,
причем определение целевой метки содержит:
извлечение эталонной сигнатуры из базы данных эталонных сигнатур, при этом эталонную сигнатуру определяют для эталонного электронного документа, принадлежащего к указанной категории, и эталонную сигнатуру выбирают в соответствии с длиной эталонной сигнатуры так, чтобы длина эталонной сигнатуры была между верхней и нижней границами; и
определение, принадлежит ли целевой электронный документ к указанной категории в соответствии с результатом сравнения сигнатуры текста с эталонной сигнатурой.
Наверх