Способ и система отбора обучающих признаков для алгоритма машинного обучения

Изобретение относится к области вычислительной техники, в частности к системам машинного обучения. Технический результат заключается в обеспечении классификации обучающего документа в категорию с целевой меткой. Технический результат достигается за счет анализа обучающего документа для извлечения множества признаков и для данного еще не отобранного признака из множества признаков: итеративного создания набора параметров релевантности, итеративного создания набора параметров избыточности и определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности, отбора признака, связанного с наивысшим значением показателя значимости признака, и добавления отобранного признака к отобранной подгруппе признаков. 2 н. и 24 з.п. ф-лы, 5 ил.

 

ОБЛАСТЬ ТЕХНИКИ

[001] Настоящая технология относится к способам и системам отбора обучающих признаков для алгоритма машинного обучения.

УРОВЕНЬ ТЕХНИКИ

[002] Рост числа подключаемых вычислительных устройств в сочетании с достижениями в области вычислительной мощности и телекоммуникационных сетей привело к увеличению потока информации, которая в свою очередь требует хранения, передачи, поиска, управления и анализа обширных и сложных наборов данных.

[003] Методы машинного обучения и интеллектуального анализа данных были разработаны, чтобы изучать наборы данных и строить модели прогнозирования для получения надежных и воспроизводимых решений и результатов. Классификация, область машинного обучения, решает проблему определения категории для нового наблюдения. При классификации вводы делятся на два или более класса, и метод машинного обучения создает модель, назначающую эти вводы одному или нескольким таким классам, на основании обучающего набора данных. Отдельные наблюдения анализируются и помещаются в набор количественных свойств, известных как каузальные переменные или признаки.

[004] Отбор признаков, также известный как отбор переменных, отбор атрибутов или отбор подгруппы переменных, является дисциплиной машинного обучения, изучающей составление и отбор подгруппы соответствующих признаков для использования в построении модели, что позволяет упростить модели, укорачивает время обучения и усиливает обобщение за счет уменьшения переобучения. Способы отбора признаков основаны на предположении, что данные могут содержать избыточные или нерелевантные признаки, которые могут быть удалены с минимальной потерей информации. Отбор признаков особенно важен в контексте обширных наборов данных, содержащих сотни и тысячи признаков.

[005] Способы отбора признаков для классификации могут применяться в таких разнообразных областях, как, среди прочего, компьютерное зрение, поиск и разработка лекарственных средств, геостатистика, распознавание речи, биометрическая идентификация, биологическая классификация, классификация документов и распознавание шаблонов данных. Например, отбор признаков может быть выполнен для генного отбора, где признаки - коэффициенты экспрессии генов, соответствующие среднему числу молекул мРНК в пробе ряда пациентов, и где с помощью классификации здоровые пациенты отделяются от пациентов, больных раком, на основании коэффициентов экспрессии генов. В этом случае классификация ста пациентов может означать анализ до 60000 переменных или признаков. Другим примером применения отбора признаков может быть категоризация текста, где документы могут быть представлены векторами «набора слов» с размерностью, равной размеру словаря, содержащего показатели частотности слов, которые могут составлять до сотен тысяч слов, и где классификация документа может потребовать анализа сотен тысяч слов. Такие документы могут затем быть классифицированы по категориям поисковыми системами или могут быть использованы для фильтрации спама. Отбор признаков позволяет выполнять задачи классификации с меньшим числом переменных и с минимальной потерей точности, что может сэкономить время и вычислительные ресурсы.

[006] Способы отбора признаков в целом можно разделить на три категории: способы оболочки (wrapper methods), вложенные способы (embedded methods) и способы фильтрации (filter methods). Способы оболочки используют алгоритм обучения как черный ящик для присвоения оценок подгруппам переменных в соответствии с их предсказательной силой. Вложенные способы выполняют отбор переменных в процессе обучения и, как правило, индивидуальны для каждого данного обучения. Способы фильтрации позволяют отобрать подгруппу переменных в качестве шага предварительной обработки, независимо от выбранного прогностического фактора. Способы фильтрации иногда особенно подходят для определенных задач благодаря своей скорости, универсальному отбору переменных и возможности использовать их в качестве шага предварительной обработки для уменьшения размерности пространства и борьбы с переобучением.

[007] Способы фильтрации обычно рассматривают критерий оценки, представляющий корреляцию между признаком и меткой класса, для определения того, насколько полезным может быть признак при использовании его в качестве классификатора. Были разработаны несколько способов фильтрации, использующих максимизацию различных критериев оценки.

[008] В патентной заявке США 2014/0207764 A1, Haws и др. раскрыты различные варианты осуществления отбора признаков из пространства признаков. В одном варианте осуществления способа получают набор признаков и значение класса. Для признака, который был ранее отобран из набора признаков, получают показатель избыточности. Для каждого из множества пока еще не отобранных признаков в наборе признаков определяется показатель избыточности на основании полученного показателя избыточности, и избыточности между пока еще не отобранным признаком и признаком, который был отобран ранее. Релевантность значения класса определяется для каждого из еще не отобранных признаков. Отбирается признак из множества еще не отобранных признаков с наивысшей релевантностью значению класса и наименьшим показателем избыточности.

[009] В патенте США US 7,853,599 В2, Liu и др. раскрыты различные способы, компьютерные программы и системы отбора признаков для ранжирования при извлечении информации. В патенте описано вычисление показателя важности для признаков, измерение показателя сходства между двумя признаками, отбор признаков, которые максимизируют совокупные показатели важности признаков и сводят к минимуму совокупные показатели сходства между признаками. Также в патенте описан отбор признаков для ранжирования, решающий проблему оптимизации. Таким образом, в патенте показана идентификация релевантных признаков с помощью удаления мусорных и избыточных признаков и ускорения процесса обучения модели.

РАСКРЫТИЕ

[0010] Задачей предлагаемой технологии является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[0011] Варианты осуществления настоящего технического решения были разработаны с учетом изобретательского понимания по меньшей мере одной проблемы, связанной с известным уровнем техники.

[0012] Не выдвигая какую-то конкретную теорию, разработчики данной технологии считают, что не стоит выбирать или ожидать эффективности от традиционных подходов к отбору признаков с взаимной информацией (MI, mutual information) при работе с тремя или более признаками. Кроме того, эти подходы не могут учитывать признаки, которые релевантны целевой метке вместе, но не настолько релевантны индивидуально, одновременно с учетом избыточности между признаками с использованием условной взаимной информации.

[0013] Также разработчики данной технологии отмечают, что традиционные подходы к отбору признаков не применяют бинарное представление признаков, дающее возможность принимать во внимание взаимодействие нескольких признаков.

[0014] Таким образом, разработчики данной технологии решают вышеописанные недостатки, связанные с традиционными подходами к отбору признаков путем разработки метода отбора признаков с использованием условной взаимной информации и с учетом синергизма и избыточности между множеством признаков. Варианты осуществления настоящего технологии направлены на создание подгруппы признаков, лучше всего представляющих признаки обучающего документа, чтобы обеспечить классификацию обучающего документа в категорию с целевой меткой. Способ отбора признаков также может использовать бинарное представление признаков, а не сами признаки.

[0015] Первым объектом настоящей технологии является компьютерный способ отбора отобранной подгруппы признаков из множества признаков для обучения модуля машинного обучения, причем модуль машинного обучения исполняется электронным устройством, модуль машинного обучения обучается классифицировать электронный документ в целевую категорию с целевой меткой, а множество признаков связано с электронным документом, способ выполняется на электронном устройстве, способ включает в себя: анализ электронным устройством данного обучающего документа для извлечения множества признаков, связанных с ним, данный обучающий документ обладает предварительно назначенной целевой меткой, создание набора параметров релевантности для данного еще не отобранного признака из множества признаков с помощью итеративного выполнения: определения электронным устройством соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака вместе с набором параметров релевантности, включая один или несколько уже отобранных признаков из множества признаков, определению предварительно назначенной целевой метке, добавление электронным устройством соответствующего параметра релевантности к набору параметров релевантности, создание набора параметров избыточности для данного еще не отобранного признака из множества признаков с помощью: определения электронным устройством соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака вместе с подгруппой параметров релевантности и подгруппой параметров избыточности, включая один или несколько уже отобранных признаков из множества признаков, определению предварительно назначенной целевой метки, добавление электронным устройством соответствующего параметра избыточности к набору параметров избыточности, анализ электронным устройством данного еще не отобранного признака для определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности, отбор электронным устройством данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, добавление данного отобранного признака в отобранную подгруппу признаков и сохранение модулем машинного обучения отобранной подгруппы признаков.

[0016] В некоторых вариантах осуществления технологии способ дополнительно включает в себя после анализа электронным устройством данного обучающего документа для извлечения множества признаков, связанных с ним, бинаризацию множества признаков и использование набора бинаризированных признаков как множества признаков.

[0017] В некоторых вариантах осуществления настоящей технологии отобранная подгруппа признаков включает в себя предварительно определенное число k отобранных признаков, а итеративное создание набора параметров релевантности, итеративное создание набора параметров избыточности, анализ данных еще не отобранных признаков и отбор данного отобранного признака повторяется k раз.

[0018] В некоторых вариантах осуществления настоящей технологии способ дополнительно включает в себя прежде создания набора параметров релевантности определение параметра t, определяющего число взаимодействующих признаков; причем определение соответствующего параметра релевантности итеративно осуществляется за t-1 этап, а определение соответствующего параметра избыточности итеративно осуществляется за t этапов.

[0019] В некоторых вариантах осуществления технологии параметр t равен по меньшей мере 3.

[0020] В некоторых вариантах осуществления технологии соответствующий параметр релевантности определяется на основе:

где I - взаимная информация, с - предварительно назначенная целевая метка, a b - данный еще не отобранный признак.

[0021] В некоторых вариантах осуществления технологии соответствующий параметр избыточности определяется на основе:

где I - взаимная информация, с - предварительно назначенная целевая метка, a b - данный еще не отобранный признак, a h1, … hj-1 - подгруппа параметров релевантности.

[0022] В некоторых вариантах осуществления технологии анализ электронным устройством данного еще не отобранного признака для определения показателя значимости признака на основе подгруппы параметров релевантности и подгруппы параметров избыточности определяется на основе:

где Ji - показатель значимости признака, b - данный неотобранный бинаризированный признак, B[f] - набор бинаризированных признаков, I - взаимная информация, с - предварительно назначенная целевая метка, h1, … hj-1 - подгруппа параметров релевантности, a g1, …, gt - набор параметров избыточности.

[0023] В некоторых вариантах осуществления технологии данный отобранный признак, связанный с наивысшим значением показателя значимости признака, определяется на основе:

где f - данный отобранный признак из множества признаков, a F\S - набор еще не отобранных признаков.

[0024] В некоторых вариантах осуществления технологии способ дополнительно включает в себя перед созданием второго набора параметров релевантности: анализ электронным устройством каждого признака из множества признаков для определения индивидуального параметра релевантности данного признака из множества признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки, и отбор электронным устройством из множества признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности и добавление первого отобранного признака к отобранной подгруппе признаков.

[0025] В некоторых вариантах осуществления технологии индивидуальный параметр релевантности определяется на основе:

где f - данный признак из множества признаков, F - множество признаков, I - взаимная информация, с - предварительно назначенная целевая метка, b - данный признак, a B[f] - набор бинаризированных признаков.

[0026] В некоторых вариантах осуществления технологии создание соответствующего параметра релевантности дополнительно основано на множестве признаков и создание соответствующего параметра избыточности основано на отобранной подгруппе признаков.

[0027] В некоторых вариантах осуществления технологии добавление данного отобранного признака к отобранной подгруппе признаков включает в себя добавление набора параметров релевантности к отобранной подгруппе признаков.

[0028] Вторым объектом настоящей технологии является сервер для отбора отобранной подгруппы признаков из множества признаков для обучения модуля машинного обучения, модуль машинного обучения обучается классифицировать электронный документ в целевую категорию с целевой меткой, а множество признаков связано с электронным документом, сервер включает в себя: память, процессор, соединенный с памятью, процессор выполнен с возможностью осуществлять: анализ данного обучающего документа для извлечения множества признаков, связанных с ним, данный обучающий документ обладает предварительно назначенной целевой меткой, создание набора параметров релевантности для данного еще не отобранного признака из множества признаков с помощью итеративного выполнения: определения соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака вместе с набором параметров релевантности, включая один или несколько уже отобранных признаков из множества признаков, определению предварительно назначенной целевой метке, добавление соответствующего параметра релевантности к набору параметров релевантности, создание набора параметров избыточности для данного еще не отобранного признака из множества признаков с помощью: определения соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака вместе с подгруппой параметров релевантности и подгруппой параметров избыточности, включая один или несколько уже отобранных признаков из множества признаков, определению предварительно назначенной целевой метки, добавление соответствующего параметра избыточности к набору параметров избыточности, анализ данного еще не отобранного признака для определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности, отбор данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, добавление данного отобранного признака в отобранную подгруппу признаков и сохранение в памяти отобранной подгруппы признаков.

[0029] В некоторых вариантах осуществления технологии процессор дополнительно выполнен с возможностью осуществлять после анализа данного обучающего документа для извлечения множества признаков, связанных с ним, причем данный документ обладает предварительно назначенной целевой меткой, бинаризацию множества признаков и использование набора бинаризированных признаков как множества признаков.

[0030] В некоторых вариантах осуществления настоящей технологии отобранная подгруппа признаков включает в себя предварительно определенное число к отобранных признаков, а итеративное создание набора параметров релевантности, итеративное создание набора параметров избыточности, анализ данных еще не отобранных признаков и отбор данного отобранного признака повторяется к раз.

[0031] В некоторых вариантах осуществления настоящей технологии процессор дополнительно выполнен с возможностью осуществлять прежде создания набора параметров релевантности определение параметра t, определяющего число взаимодействующих признаков, и в котором определение соответствующего параметра релевантности итеративно осуществляется за t-1 этап, а определение соответствующего параметра избыточности итеративно осуществляется за t этапов.

[0032] В некоторых вариантах осуществления технологии параметр t превосходит 3.

[0033] В некоторых вариантах осуществления технологии соответствующий параметр релевантности определяется на основе:

где I - взаимная информация, с - предварительно назначенная целевая метка, a b - данный еще не отобранный признак.

[0034] В некоторых вариантах осуществления технологии соответствующий параметр избыточности определяется на основе:


где I - взаимная информация, с - предварительно назначенная целевая метка, a b - данный еще не отобранный признак, a h1, … hj-1 - подгруппа параметров релевантности.

[0035] В некоторых вариантах осуществления технологии анализ данного еще не отобранного признака для определения показателя на основе набора параметров релевантности и набора параметров избыточности определяется на основе:

где Ji - показатель, b -- данный еще не отобранный бинаризированный признак, B[f] - набор бинаризированных признаков, I - взаимная информация, с - предварительно назначенная целевая метка, h1, … ht-1 - подгруппа параметров релевантности, a g1, …, gt - набор параметров избыточности.

[0036] В некоторых вариантах осуществления технологии данный отобранный признак, связанный с наивысшим значением показателя значимости признака, определяется на основе:

где f - данный признак из множества признаков, a F\S - набор еще не отобранных признаков.

[0037] В некоторых вариантах осуществления технологии процессор выполнен с дополнительной возможностью осуществлять перед созданием второго набора параметров релевантности: анализ каждого признака из множества признаков для определения индивидуального параметра релевантности данного признака из множества признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки, и отбор из множества признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности и добавление первого отобранного признака к отобранной подгруппе признаков.

[0038] В некоторых вариантах осуществления технологии индивидуальный параметр релевантности определяется на основе:

где f - признак из множества признаков, F - множество признаков, I - взаимная информация, с - предварительно назначенная целевая метка, b - данный еще не отобранный признак, a B[f] - набор бинаризированных признаков.

[0039] В некоторых вариантах осуществления технологии создание соответствующего параметра релевантности дополнительно основано на множестве признаков и создание соответствующего параметра избыточности основано на отобранной подгруппе признаков.

[0040] В некоторых вариантах осуществления технологии добавление данного отобранного признака к отобранной подгруппе признаков включает в себя добавление набора параметров релевантности к отобранной подгруппе признаков.

[0041] В контексте настоящего описания «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от электронных устройств) по сети (например, сети передачи данных) и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для данной технологии. В контексте настоящей технологии использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».

[0042] В контексте настоящего описания «электронное устройство» подразумевает под собой вычислительное устройство или компьютерное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. Таким образом, некоторыми примерами электронных устройств (среди прочего) могут служить универсальные персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), мобильные компьютерные устройства, смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что электронное устройство в настоящем контексте может вести себя как сервер по отношению к другим электронным устройствам. Использование выражения «электронное устройство» не исключает возможности использования множества электронных устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного метода. В контексте настоящего описания термин «клиентское устройство» относится к любому из ряда клиентских электронных устройств, связанных с пользователем, например, персональные компьютеры, планшеты, смартфоны и тому подобное.

[0043] В контексте настоящего описания термин «сеть передачи данных» означает любую сеть передачи данных, например, компьютерную сеть, Интернет, телефонную сеть, систему телексной связи, сеть TCP/IP (например, сеть WAN, сеть LAN) и тому подобное. Термин «сеть передачи данных» включает в себя проводную сеть или напрямую соединенную сеть, а также беспроводную связь, например, акустическую, радиочастотную, инфракрасную и другие типы беспроводной связи, а также комбинации любых из вышеперечисленных.

[0044] В контексте настоящего описания, если четко не указано иное, "машиночитаемый носитель" и "память" подразумевает под собой носитель абсолютно любого типа и характера, не ограничивающие примеры включают в себя ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-ключи, флеш-карты, твердотельные накопители и накопители на магнитной ленте.

[0045] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий «второй сервер» обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

[0046] В контексте настоящего описания появляется термин «взаимная информация». Взаимная информация (MI, mutual information) - мера количества информации, которую имеет одна случайная переменная о другой случайной переменной, и она может быть интерпретирована следующим образом: насколько тесно эти переменные связаны. MI может быть выражена как

Где H(f)=-E[logP(f)] - энтропия Шэннона, h a g - две случайные переменные. Условная информация двух случайных переменных huge учетом переменной h может быть выражена как:

Условная случайная переменная выражает количество дополнительной информации о переменной f, которое имеется у переменной g по сравнению с переменной h.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0047] Для лучшего понимания настоящей технологии, а также других ее аспектов и характерных черт, сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[0048] На ФИГ. 1 представлена схема электронного устройства, которое подходит для реализации настоящей технологии, и/или которое используется в сочетании с вариантами осуществления настоящей технологи;

[0049] - На Фиг. 2 представлена схема блока отбора признаков, причем обработка выполняется электронным устройством, как предусмотрено в некоторых вариантах осуществления настоящей технологии;

[0050] - На Фиг. 3 представлена схема процедуры определения отбора признаков, как предусмотрено в некоторых вариантах осуществления настоящей технологии; и

[0051]- На Фиг 4А и Фиг. 4В представлена блок-схема способа отбора отобранной подгруппы признаков из множества признаков, способ выполняется электронным устройством, изображенном на Фиг. 1, способ исполняется в соответствии с вариантами осуществления настоящей технологии, не ограничивающими ее объем.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0052] Все примеры и используемые здесь условные конструкции предназначены, главным образом, для того, чтобы помочь читателю понять принципы настоящей технологии, а не для установления границ ее объема. Следует также отметить, что специалисты в данной области техники могут разработать различные схемы, отдельно не описанные и не показанные здесь, но которые, тем не менее, воплощают собой принципы настоящей технологии и находятся в границах ее объема.

[0053] Кроме того, для ясности в понимании, следующее описание касается достаточно упрощенных вариантов осуществления настоящей технологии. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящей технологии будут обладать гораздо большей сложностью.

[0054] Некоторые полезные примеры модификаций настоящей технологии также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящей технологии. Эти модификации не представляют собой исчерпывающего списка, и специалисты в данной области техники могут создавать другие модификации, остающиеся в границах объема настоящей технологии. Кроме того, те случаи, в которых не были представлены примеры модификаций, не должны интерпретироваться как то, что никакие модификации невозможны, и/или что то, что было описано, является единственным вариантом осуществления этого элемента настоящей технологии.

[0055] Более того, все заявленные здесь принципы, аспекты и варианты осуществления настоящей технологии, равно как и конкретные их примеры, предназначены для обозначения их структурных и функциональных основ, вне зависимости от того, известны ли они на данный момент или будут разработаны в будущем. Таким образом, например, специалистами в данной области техники будет очевидно, что представленные здесь блок-схемы представляют собой концептуальные иллюстративные схемы, отражающие принципы настоящей технологии. Аналогично, любые блок-схемы, диаграммы, псевдокоды и т.п.представляют собой различные процессы, которые могут быть представлены на машиночитаемом носителе и, таким образом, использоваться компьютером или процессором, вне зависимости от того, показан явно подобный компьютер или процессор или нет.

[0056] Функции различных элементов, показанных на фигурах, включая функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть обеспечены с помощью специализированного аппаратного обеспечения или же аппаратного обеспечения, способного использовать подходящее программное обеспечение. Когда речь идет о процессоре, функции могут обеспечиваться одним специализированным процессором, одним общим процессором или множеством индивидуальных процессоров, причем некоторые из них могут являться общими. В некоторых вариантах осуществления настоящей технологии процессор может являться универсальным процессором, например, центральным процессором (CPU) или специализированным для конкретной цели процессором, например, графическим процессором (GPU). Более того, использование термина «процессор» или «контроллер» не должно подразумевать исключительно аппаратное обеспечение, способное поддерживать работу программного обеспечения, и может включать в себя, без установления ограничений, цифровой сигнальный процессор (DSP), сетевой процессор, интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также в это может быть включено другое аппаратное обеспечение, обычное и/или специальное.

[0057] Программные модули или простые модули, представляющие собой программное обеспечение, могут быть использованы здесь в комбинации с элементами блок-схемы или другими элементами, которые указывают на выполнение этапов процесса и/или текстовое описание. Подобные модели могут быть выполнены на аппаратном обеспечении, показанном напрямую или косвенно.

[0058] С учетом этих примечаний далее будут рассмотрены некоторые варианты осуществления аспектов настоящей технологии, не ограничивающие ее объем.

[0059] На Фиг. 1 представлена схема электронного устройства 100, которое подходит для некоторых вариантов осуществления настоящей технологии, причем электронное устройство 100 включает в себя различные аппаратные компоненты, включая один или несколько одно- или многоядерных процессоров, которые представлены процессором 110, графический процессор (GPU) 111, твердотельный накопитель 120, ОЗУ 130, интерфейс 140 монитора, и интерфейс 150 ввода/вывода.

[0060] Связь между различными компонентами электронного устройства 100 может осуществляться с помощью одной или нескольких внутренних и/или внешних шин 160 (например, шины PCI, универсальной последовательной шины, высокоскоростной шины IEEE 1394, шины SCSI, шины Serial ATA и так далее), с которыми электронными средствами соединены различные аппаратные компоненты. Интерфейс 140 монитора может быть соединен с монитором 142 (например, через HDMI-кабель 144), видимым пользователю 170, интерфейс 150 ввода/вывода может быть соединен с сенсорным экраном (не изображен), клавиатурой 151 (например, через USB-кабель 153) и мышью 152 (например, через USB-кабель 154), причем как клавиатура 151, так и мышь 152 используются пользователем 170.

[0061] В соответствии с вариантами осуществления настоящей технологии твердотельный накопитель 120 хранит программные команды, подходящие для загрузки в ОЗУ 130, и использующиеся процессором ПО и/или графическим процессором GPU 111 для отбора отобранного набора признаков из множества признаков. Например, программные инструкции могут представлять собой часть библиотеки или приложение.

[0062] Электронное устройство 100 может быть сервером, настольным компьютером, ноутбуком, планшетом, смартфоном, персональным цифровым органайзером (PDA) или другим устройством, которое может быть выполнено с возможностью реализовать настоящую технологию, как будет понятно специалисту в данной области техники.

[0063] На Фиг. 2 представлен пример блока 200 отбора признаков.

[0064] Блок 200 отбора признаков может быть реализован электронным устройством 100 и может включать в себя процедуру 220 извлечения признаков, процедуру 240 бинаризации и процедуру 260 отбора признаков, обрабатывая обучающий документ 210.

[0065] Обучающий документ 210 может быть любым электронным файлом или документом, который может быть сохранен на машиночитаемом носителе информации, например, без каких-либо ограничений, твердотельном накопителе 120. Как будет понятно специалисту в данной области техники, реализация обучающего документа 210 никак не ограничена. Обучающий документ 210 может включать в себя любой тип медиа или данных, и может быть текстом, страницей HTML, документом PDF, информацией о форматировании, метаданными, аудиозаписью, изображением или видеозаписью. В некоторых вариантах осуществления настоящей технологии обучающий документ 210 может быть получен по сети передачи данных (не показана) от сервера (не показан). В других вариантах осуществления технологии обучающий документ 210 может быть получен из разных источников или серверов (не изображены) или загружен или введен пользователем 170.

[0066] Процедура 220 извлечения признаков может быть использована для получения множества 230 признаков и предварительно назначенной целевой метки (не изображена) из обучающего документа 210. Процедура 220 извлечения признаков может выводить множество 230 признаков и связанную предварительно назначенную целевую метку (не изображена) обучающего документа 210 в форме одного или нескольких векторов. В некоторых вариантах осуществления настоящей технологии множество 230 признаков может быть уже извлечено, проанализировано и/или профильтровано на предыдущем этапе (не изображен) электронным устройством 100 или другим электронным устройством (не изображено) и может содержать множество 230 признаков и связанную целевую метку, обычно назначаемую экспертом. В других вариантах осуществления технологии процедура 220 извлечения признаков может извлекать множество 230 признаков из необработанных данных такими способами, как анализ независимых компонентов (independent component analysis), изокарт (isomap), ядерный анализ главных компонентов (kernel РСА), латентно-семантический анализ (latent semantic analysis), частные наименьшие квадраты (partial least squares), анализ главных компонентов (principal component analysis), редукция размерности многофакторного пространства (multifactor dimensionality reduction), нелинейная редукция размерности (nonlinear dimensionality reduction), полилинейный анализ главных компонентов (multilinear principal component analysis), полилинейное пространственное обучение (multilinear subspace learning), полуопределенное встраивание (semidefinite embedding), автокодировщик (autoencoder) или глубинный синтез признаков (deep feature synthesis). В других вариантах осуществления технологии, в которых обучающий объект 210 является изображением, процедура 220 извлечение признаков может использовать способы, включающие в себя гистограмму направленных градиентов HOG (Histogram of Oriented Gradients), способ усиленных робастных признаков SURF (Speeded Up Robust Features), локальные бинарные шаблоны LBP (Local Binary Patterns), вейвлет Xaapa (Haar wavelets) и гистограммы изображения (color histograms). В других вариантах осуществления технологии процедура 220 извлечение признаков может использовать пользовательский способ для извлечения множества 230 признаков из обучающего документа 210 в зависимости от того, как реализован обучающий документ 210.

[0067] Множество 230 признаков может быть представлено в форме вектора или многомерного вектора, и может быть численным представлением признаков обучающего документа 210.

[0068] Процедура 240 бинаризации может быть использована для осуществления бинарной трансформации множества 230 признаков для вывода набора бинаризированных признаков 250. Данный признак из набора бинаризированных признаков 250 может включать в себя ту же информацию, что и тот же признак из множества 230 признаков, в форме векторов с нулями и единицами. В некоторых вариантах осуществления технологии предварительно назначенная целевая метка также может быть бинаризирована. В общем случае способы отбора признаков на основе вычисления взаимной информации (MI) более чем трех признаков подразумевают большой размер их совместного распределения, что требует большого числа экземпляров для оценки MI, что, в свою очередь, может требовать большой вычислительной нагрузки. Как пример, если каждый признак в множестве 230 признаков имеет d значений, размерность совместного распределения оценочной функции, с учетом взаимодействия t признаков, может составить 2⋅d2t (например, ≈ 4.9⋅108 для t=6 и d=5). Бинарная трансформация позволяет снизить размерность совместного распределения до 2⋅22t (например, ≈ 8.2⋅103 для t=6 и d=5). В некоторых вариантах осуществления настоящей технологии процедура 240 бинаризации может быть выполнена в разное время в течении процедуры 260 отбора признаков. Процедура 240 бинаризации может быть опциональна, и может не выполняться в каждом варианте осуществления настоящей технологии.

[0069] Процедура 260 отбора признаков может использоваться для определения и вывода отобранной подгруппы 270 признаков из набора 250 бинаризированных признаков. Более детальное описание процедуры 260 отбора признаков приводится ниже.

[0070] На Фиг. 3 представлен пример процедуры 260 отбора признаков. Процедура 260 отбора признаков может включать в себя опциональную процедуру определения 310 первого признака, итерационную процедуру 320 и процедуру 360 подбора признаков. Итерационная процедура 320 может включать в себя процедуру 330 определения параметра релевантности, процедуру 340 определения параметра избыточности и процедуру 350 определения показателя значимости признака. Процедура 260 отбора признаков может использоваться для отбора и вывода отобранной подгруппы 270 признаков из множества 230 признаков или набора 250 бинаризированных признаков.

[0071] Процедура 260 отбора признаков может принимать как ввод множество 230 признаков, предварительно назначенную метку (не изображена), число признаков, которые должны быть отобраны (не изображены) и параметр взаимодействия (не изображен), причем параметр взаимодействия определяет число признаков, которые будут рассматриваться при определении условной взаимной информации параметра релевантности и параметра избыточности. В некоторых вариантах осуществления настоящей технологии ввод может осуществляться в процедуру 310 определения первого признака. В других вариантах осуществления настоящей технологии ввод может осуществляться напрямую в процедуру 330 определения релевантности. В вариантах осуществления настоящей технологии, приведенных здесь, процедура 260 отбора признаков принимает как ввод набор 250 бинаризированных признаков, однако он может быть заменен на множество 230 признаков без каких-либо изменений процедуры 260 отбора признаков.

[0072] В некоторых вариантах осуществления настоящей технологии процедура 260 отбора признаков может включать в себя процедуру 310 определения первого признака для отбора данного признака с наивысшим значением релевантности по отношению к определению предварительно назначенной целевой метки. Данный признак может быть выбран с помощью вычисления MI каждого признака из набора 250 бинаризированных признаков с предварительно назначенной целевой меткой. Признак с наивысшим значением параметра индивидуальной релевантности, который является максимальным аргументом максимума MI, может затем быть отобран как первый отобранный признак. Первый признак затем может быть добавлен к отобранной подгруппе 315 признаков. Первый отобранный признак может быть определен на основании:

где f- данный признак из множества признаков, F - множество 230 признаков, b - данный бинаризированный признак, B[f] - набор бинаризированных признаков, I - взаимная информация, а с - предварительно назначенная целевая метка. Первый отобранный признак затем может быть добавлен к отобранной подгруппе 315 признаков.

[0073] Итерационная процедура 320 может включать в себя процедуру 330 определения параметра релевантности, процедуру 340 определения параметра избыточности и процедуру 350 определения показателя значимости признака. В общем случае итерационная процедура 320 может быть выполнена электрическим устройством 100 для данного еще не отобранного признака из набора 250 бинаризированных признаков, которые могут подвергаться процедуре 330 определения параметра релевантности, процедуре 340 определения параметра избыточности и процедуре 350 определения показателя значимости признака. В некоторых вариантах осуществления настоящей технологии процедура 330 определения параметра релевантности, процедура 340 определения параметра избыточности и процедура 350 определения показателя значимости признака могут быть выполнены одновременно для каждого еще не отобранного признака из набора 250 бинаризированных признаков, с помощью одного или нескольких экземпляров электронного устройства 100 или одним или несколькими электронными устройствами (не изображены).

[0074] Процедура 330 определения параметра релевантности может использоваться для создания набора 335 параметров релевантности с помощью «жадного» алгоритма (in a greedy manner) для каждого еще не отобранного признака из набора 250 бинаризированных признаков. Релевантность признаков, также известная как комплементарность признаков, синергизм или взаимодействие - это характеристика признаков, которые показывают более высокую релевантность предварительно назначенной целевой метке вместе, а не по отдельности. Процедура 320 определения параметра релевантности может принимать как ввод предварительно назначенную целевую метку (не изображена) и набор 250 бинаризированных признаков. В вариантах осуществления технологии, в которых первый отобранный признак был добавлен к отобранной подгруппе 315 признаков, процедура 320 определения параметра релевантности может также принимать как ввод отобранную подгруппу 315 признаков на первой итерации. В некоторых вариантах осуществления настоящей технологии после прохождения через итерационную процедуру 320 один раз, отобранная подгруппа 365 признаков может приниматься как ввод процедурой 320 определения параметра релевантности. Процедура 320 определения параметра релевантности может итеративно вычислять набор 335 параметров релевантности, причем набор 335 параметров релевантности включает в себя t-1 параметров релевантности, где t - предварительно определенный параметр взаимодействия, определяющий число признаков, которые необходимо рассматривать в вычислении условной взаимной информации. На каждом этапе j процедуры 330 определения параметра релевантности вычисление текущего параметра hj релевантности (не изображен) может быть основано на предыдущем наборе параметров релевантности (не изображен), включающим в себя параметры h1, h2, …, hj-1 релевантности (не изображены), вычисленные ранее для данного еще не отобранного признака. Текущий параметр hj релевантности может затем быть добавлен к набору 335 параметров релевантности, и процедура 330 определения параметра релевантности может перейти к вычислению следующего параметра hj+1 релевантности, пока в наборе 335 параметров релевантности не окажутся все t-1 параметров релевантности.

[0075] Параметр релевантности (не изображен) - это мера синергизма данного еще не отобранного признака с целевой меткой, обусловленная уже отобранным признаком, и она может быть выражена как условная взаимная информация данного еще не отобранного признака из набора 250 бинаризированных признаков и предварительно назначенной целевой метки, с учетом одного или нескольких уже отобранных признаков и набора 335 параметров релевантности. Каждая итерация параметра hj релевантности в процедуре 330 определения параметра релевантности может быть определена на основе:

где I - взаимная информация, с - предварительно назначенная целевая метка, b - данный еще не отобранный бинаризированный признак, который является частью набора 250 бинаризированных признаков, a h - параметр релевантности, который может быть связан с релевантным признаком. В вариантах осуществления технологии, в которых первый отобранный признак был отобран в процедуре 310 определения первого признака, параметр h релевантности может быть выбран из отобранной подгруппы 365 признаков, и для первой итерации может быть первый отобранный признак, который был ранее отобран в течение процедуры 310 определения первого признака и добавлен в отобранную подгруппу 315 признаков. После первой итерации параметр h релевантности может быть связан с признаком, обладающим наивысшим параметром релевантности из уже выбранных признаков в отобранной подгруппе 365 признаков. В некоторых вариантах осуществления настоящей технологии параметр h релевантности может быть связан с признаком, обладающим наивысшим параметром релевантности в наборе 250 бинаризированных признаков. В других вариантах осуществления настоящей технологии параметр h релевантности может быть связан с признаком, обладающим наивысшим параметром релевантности в наборе 250 бинаризированных признаков и в отобранной подгруппе 365 признаков.

[0076] Процедура 340 определения параметра избыточности может использоваться для создания набора 345 параметров избыточности с помощью «жадного» алгоритма (in a greedy manner) для каждого еще не отобранного признака из набора 250 бинаризированных признаков. Избыточный признак может быть признаком, который включает в себя ту же самую информацию, что и другой отобранный признак, и, следовательно, он не нужен для классификации в предварительно определенную целевую категорию с предварительно определенной целевой меткой. Процедура 340 определения параметра избыточности может принимать как ввод предварительно назначенную целевую метку (не изображена), набор 250 бинаризированных признаков и набор 335 параметров релевантности. В вариантах осуществления технологии, в которых первый отобранный признак был добавлен к отобранной подгруппе 315 признаков, процедура 340 определения параметра избыточности может также принимать как ввод отобранную подгруппу 315 признаков на первой итерации. В некоторых вариантах осуществления настоящей технологии после прохождения итерационной процедуры 320 один раз процедура 340 определения параметра избыточности может принимать как ввод отобранную подгруппу 365 признаков и может итеративно определять набор 345 параметров избыточности, причем набор 345 параметров избыточности включается в себя t параметров избыточности, t - предварительно определенный параметр взаимодействия, определяющий число признаков для рассматривания в определении условной взаимной информации. На каждом этапе j процедуры 340 определения параметра избыточности вычисление текущего параметра gj избыточности (не изображен) может быть основано на предыдущем наборе параметров релевантности (не изображен), который может включать в себя все параметры g1, g2, …, gj-1 избыточности (не изображены), вычисленные ранее и подгруппу параметров релевантности h1, h2, …, hj-1 для данного еще не отобранного признака. Текущий параметр избыточности может затем быть добавлен к набору 345 параметров избыточности, и процедура 340 определения параметра избыточности может перейти к вычислению следующего параметра gj+1 (не изображен) избыточности, пока в наборе 345 параметров избыточности не окажутся все t параметров избыточности.

[0077] Параметр избыточности (не изображен) - это мера избыточности данного еще не отобранного признака по отношению к предварительно отобранной целевой метке, обусловленная уже отобранными признаками, и она выражается как условная взаимная информация данного еще не отобранного признака из набора 250 бинаризированных признаков и предварительно назначенной целевой метки, с учетом одного или нескольких уже отобранных признаков и набора 335 параметров релевантности. Каждая итерация параметра gj избыточности в процедуре 340 определения параметра избыточности может быть определена на основе:

где I - взаимная информация, с - предварительно назначенная целевая метка, b - данный бинаризированный еще не отобранный признак из набора 250 бинаризированных признаков, h1, …, hj-1 - подгруппа набора 335 параметров релевантности, который может быть связан с релевантным признаком, a g - параметр избыточности, связанный с избыточным признаком. В вариантах осуществления технологии, в которых первый отобранный признак был отобран в процедуре 310 определения первого признака, параметр g избыточности может быть выбран из отобранной подгруппы 365 признаков, и для первой итерации может быть первый отобранный признак, который был ранее отобран в течение процедуры 310 определения первого признака и добавлен в отобранную подгруппу 315 признаков. После первой итерации параметр h избыточности может быть связан с признаком, обладающим наименьшим параметром избыточности в отобранной подгруппе 365 признаков. В некоторых вариантах осуществления настоящей технологии процедура 320 определения параметра релевантности и процедура 330 определения параметра избыточности могут быть объединены в одну процедуру.

[0078] Процедура 350 определения показателя значимости признака может использоваться для создания показателя значимости признака для каждого еще не отобранного признака из набора 250 бинаризированных признаков. Процедура 350 определения показателя значимости признака может определять показатель значимости признака для каждого еще не отобранного признака на основании предварительно назначенной целевой метки, данного еще не отобранного признака, набора 335 параметров релевантности и набора 345 параметров избыточности данного еще не отобранного признака. В некоторых вариантах осуществления настоящей технологии процедура 350 определения показателя значимости признака может определять показатель значимости признака для каждого еще не отобранного признака на основании предварительно назначенной целевой метки, данного еще не отобранного признака, подгруппы 335 параметров релевантности и подгруппы 345 параметров избыточности данного еще не отобранного признака. Показатель значимости признака, также известный как критерий оценки или индекс общей релевантности, является мерой точности классификации еще не отобранного признака с помощью предварительно назначенной целевой метки после рассмотрения синергизма и избыточности данного еще не отобранного признака с отобранной подгруппой 315 признаков или отобранной подгруппой 365 признаков. Процедура 350 определения показателя значимости признака может быть выполнена после завершения процедуры 320 определения параметра релевантности и процедуры 330 определения параметра избыточности t-1 раз и t раз соответственно для данного еще не отобранного признака. В некоторых вариантах осуществления настоящей технологии процедура 350 определения показателя значимости признака может быть выполнена после завершения процедуры 320 определения параметра релевантности и процедуры 330 определения параметра избыточности t-1 раз и t раз соответственно для каждого еще не отобранного признака из набора 250 бинаризированных признаков. Показатель значимости признака может быть определен на основании:

где Ji - показатель значимости признака, b - данный еще не отобранный признак, B[f] - набор 250 бинаризированных признаков, I - взаимная информация, с - предварительно назначенная целевая метка, h1, …, ht-1 - подгруппа 335 параметров релевантности, a g1, …, gt-1 - набор 345 параметров избыточности. Процедура 350 определения показателя значимости признака может вывести набор 355 показателя значимости признака, представляющий показатель значимости признака каждого еще не отобранного признака.

[0079] Процедура 360 подбора признаков может быть использована для отбора данного еще не отобранного признака с наивысшим значением показателя значимости признака из набора 355 показателей значимости признака, определенного в процедуре 350 определения показателя значимости признака. Отобранный признак (не изображен), отобранный с помощью процедуры 360 подбора признаков из набора 355 показателей значимости признака может быть данным еще не отобранным признаком с наивысшим индексом релевантности и наименьшим индексом избыточности. Процедура 360 подбора признаков может анализировать каждый показатель значимости признака из набора 355 показателей значимости признака для отбора максимального аргумента показателя значимости признака. Наивысшее значение показателя значимости признака может быть определено на основании:

где f - данный еще не отобранный признак, a F\S - набор еще не отобранных признаков. Отобранный признак затем может быть добавлен к отобранной подгруппе 365 признаков.

[0080] Отобранная подгруппа 365 признаков может затем подвергаться итерационной процедуре 320, включающей в себя процедуру 330 определения параметра релевантности, процедуру 340 определения параметра избыточности, процедуру 350 определения показателя значимости признака и процедуру 360 подбора признаков, пока в отобранной подгруппе 270 признаков не окажется к отобранных признаков.

[0081] Процедура 260 отбора признаков может быть в некоторых вариантах осуществления настоящей технологии реализована с помощью следующего псевдокода:

ПСЕВДОКОД 1:

Ввод:

с - предварительно назначенная целевая метка;

F - множество признаков;

B[f]; f ∈ F; - набор бинаризированных признаков, построенный из f;

k ∈ N- число признаков для отбора;

t ∈ Z+ - параметр взаимодействия;

Вывод: S - отобранная подгруппа признаков;

В других вариантах осуществления настоящей технологии процедура 260 отбора признака может быть реализована с помощью следующего псевдокода:

ПСЕВДОКОД 2:

Ввод:

с - предварительно назначенная целевая метка;

F - множество признаков;

B[f]; f ∈ F; - набор бинаризированных признаков, построенный из f;

k ∈ N - число признаков для отбора;

t ∈ Z+ - параметр взаимодействия;

Вывод: S - отобранная подгруппа признаков;

В других вариантах осуществления настоящей технологии процедура 260 отбора признака может быть реализована с помощью следующего псевдокода:

ПСЕВДОКОД 3:

Ввод:

с - предварительно назначенная целевая метка;

F - множество признаков;

B[f]; f ∈ F; - набор бинаризированных признаков, построенный из f;

k ∈ N - число признаков для отбора;

t ∈ Z+ - параметр взаимодействия;

Вывод: S - отобранная подгруппа признаков;

[0082] На Фиг. 4А и Фиг. 4В приведен компьютерный способ 400 выбора отобранной подгруппы признаков из набора признаков для обучения модуля алгоритма машинного обучения, причем модуль алгоритма машинного обучения, реализуемый электронным устройством 100 изображен в виде блок схемы в соответствии с вариантами осуществления настоящей технологии.

[0083] Способ 400 может начинаться на этапе 401.

[0084] ЭТАП 402: анализ данного обучающего документа для извлечения множества признаков, связанных с ним, причем данный обучающий документ имеет предварительно назначенную целевую метку

[0085] На этапе 402 электронное устройство 100 может выполнять процедуру 220 извлечения признаков для анализа обучающего документа 210 для извлечения множества 230 признаков, связанных с ним, причем обучающий документ 210 имеет предварительно назначенную целевую метку. Обучающий документ 210 может проходить через процедуру 220 извлечения признаков для извлечения множества 230 признаков. Как упоминалось выше, обучающий документ 210 может быть представлять собой любой тип данных или медиа, и может иметь признаки, которые были предварительно классифицированы в целевую категорию с целевой меткой. В некоторых вариантах осуществления настоящей технологии обучающий документ 210 может иметь признаки, которые предварительно отфильтрованы. В некоторых вариантах осуществления настоящей технологии множество 230 признаков может проходить через процедуру 240 бинаризации, которая может выводить набор 250 бинаризированных признаков, как описывалось выше. Способ 400 далее может перейти к выполнению этапа 404. В тех вариантах осуществления настоящей технологии, в которой первый выбранный признак не определен, способ 400 может переходить напрямую от этапа 402 до этапа 408.

[0086] ЭТАП 404: анализ каждого признака из множества признаков для определения индивидуального параметра релевантности данного признака из множества признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки

[0087] На этапе 404 электронное устройство 100 может осуществлять процедуру 310 определения первого признака для анализа каждого признака из набора 250 бинаризированных признаков для определения индивидуального параметра релевантности данного признака из множества признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки. Как упоминалось выше, индивидуальный параметр релевантности может быть взаимной информацией. Способ 404 далее может перейти к выполнению этапа 406.

[0088] ЭТАП 406: отбор из множества признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности, и добавление первого отобранного признака к отобранной подгруппе признаков

[0089] На этапе 406, после анализа каждого признака из набора 250 бинаризированных признаков с помощью процедуры 310 определения первого признака для определения индивидуального параметра релевантности электронное устройство 100 может отбирать, с помощью выполнения процедуры 310 определения первого признака из набора 250 бинаризированных признаков первый отобранный признак, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности, и может затем добавить первый отобранный признак к отобранной подгруппе 315 признаков. Наивысшее значение индивидуального параметра релевантности может быть максимальным аргументом максимума взаимной информации. Способ 400 далее может перейти к выполнению этапа 408.

[0090] ЭТАП 408: создание набора параметров релевантности для данного еще не отобранного признака из множества признаков с помощью итеративного исполнения:

определения соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака с набором параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества признаков, по отношению к определению предварительно назначенной целевой метки;

добавления соответствующего параметра релевантности к набору параметров релевантности

[0091] На этапе 408 электронное устройство 100 может выполнить процедуру 340 определения параметра релевантности для создания набора 335 параметров релевантности для данного еще не отобранного признака из набора 250 бинаризированных признаков с помощью итеративного исполнения: определения соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака с набором 335 параметров релевантности, включающим в себя один или несколько уже отобранных признаков из набора 250 бинаризированных признаков, по отношению к определению предварительно назначенной целевой метки; и добавления электронным устройством 100 соответствующего параметра релевантности к набору 335 параметров релевантности. Этап 408 может быть выполнен электронным устройством 100 для обнаружения предварительно определенного числа t-1 параметров релевантности в наборе 335 параметров релевантности, представляющем еще не отобранные признаки, которые комплементарны отобранной подгруппе 315 признаков или отобранной подгруппе 365 признаков. Электронное устройство 100 может определить параметр релевантности данного еще не отобранного признака с помощью определения условной взаимной информации данного еще не определенного признака из набора 250 бинаризированных признаков с предварительно назначенной целевой меткой, обусловленной набором 335 параметров релевантности и отобранной подгруппой 315 признаков или отобранной подгруппой 365 признаков. Электронное устройство 100 может затем добавить текущий параметр релевантности к набору 335 параметров релевантности и повторить процедуру пока в наборе 335 параметров релевантности не окажется t-1 параметров релевантности. Электронное устройство 100 может затем сохранять набор 335 параметров релевантности в своей памяти, и способ 400 может переходить на этап 410. В некоторых вариантах осуществления настоящей технологии этап 408 и 410 могут выполнять одновременно, итерационно.

[0092] ЭТАП 410: создание набора параметров избыточности для данного еще не отобранного признака из множества признаков с помощью итеративного исполнения:

определения электронным устройством соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака по отношению к подгруппе параметров релевантности и набору параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества признаков, по отношению к определению предварительно назначенной целевой метки;

добавления электронным устройством соответствующего параметра избыточности к набору параметров избыточности

[0093] На этапе 410 электронное устройство 100 может выполнить процедуру 340 определения параметра избыточности для создания набора 345 параметров избыточности для данного еще не отобранного признака из набора 250 бинаризированных признаков с помощью итеративного исполнения: определения соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака по отношению к подгруппе параметров релевантности (не изображена) и набору 345 параметров избыточности, включающим в себя один или несколько уже отобранных признаков из набора 250 бинаризированных признаков, по отношению к определению предварительно назначенной целевой метки; и добавления электронным устройством 100 соответствующего параметра избыточности к набору 345 параметров избыточности. Этап 410 может быть выполнен электронным устройством 100 для обнаружения предварительно определенного числа t параметров избыточности, представляющем еще не отобранные признаки, которые избыточны по отношению к отобранной подгруппе 315 признаков или отобранной подгруппе 365 признаков. Электронное устройство 100 может определить текущий параметр избыточности данного еще не отобранного признака с помощью определения условной взаимной информации данного еще не определенного признака из набора 250 бинаризированных признаков с предварительно назначенной целевой меткой и подгруппой 315 признаков с помощью набора параметров избыточности. Электронное устройство 100 может затем добавить текущий параметр избыточности к набору 345 параметров избыточности и повторить процедуру пока в наборе 335 параметров релевантности не окажется t параметров избыточности. Электронное устройство 100 может затем хранить набор 345 параметров избыточности в своей памяти. Способ 400 далее может перейти к выполнению этапа 412.

[0094] ЭТАП 412: анализ данного еще не отобранного признаков для определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности

[0095] На этапе 412 после этапов 408 и 410 электронное устройство 100 может выполнить процедуру 350 определения значимости признака для анализа каждого из еще не отобранных признаков из набора 250 бинаризированных признаков для определения показателя значимости признака на основе набора 335 параметров релевантности и набора 345 параметров избыточности. В некоторых вариантах осуществления этап 412 может быть выполнен сразу после этапов 408 и 410. В других вариантах осуществления технологии этап 412 может быть выполнен после определения набора 335 параметров релевантности и набора 345 параметров избыточности для каждого еще не определенного признака. Показатели значимости параметра каждого из еще не отобранных параметров могут быть добавлены к набору 335 показателей значимости признаков. Способ далее может перейти к выполнению этапа 414.

[0096] ЭТАП 414: отбор электронным устройством данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, и добавление данного отобранного признака к отобранной подгруппе признаков

[0097] На этапе 414 после анализа каждого из еще не отобранных признаков для определения показателя значимости признака на основе набора 335 параметров и набора 345 параметров избыточности с помощью процедуры 350 определения значимости признака и после создания набора 355 показателей значимости признака электронное устройство 100 может выбрать данный отобранный признак из набора 355 показателей значимости признака с помощью выполнения процедуры 360 подбора признаков. Данный отобранный признак может быть связан с наивысшим показателем значимости признака и может быть добавлен к отобранной подгруппе 365 признаков. Данный отобранный признак может быть признаком с наивысшим уровнем синергизма и наименьшим уровнем избыточности по отношению к отобранным подгруппам 315 и 365 признаков. Отобранный признак затем может быть добавлен к отобранным подгруппам 365 или 270 признаков. Способ 400 далее может перейти к выполнению этапа 416.

[0098] Этап 416: сохранение модулем машинного обучения отобранной подгруппы признаков

[0099] На этапе 416 электронное устройство 100 может сохранять в памяти отобранную подгруппу 365 признаков. Этапы 408-414 могут затем повторяться к раз, где k - предварительно определенное число отобранных признаков в отобранной подгруппе 270 признаков. Способ 400 далее может завершаться на этапе 417.

[00100] Таким образом, способы и системы, реализованные в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии, могут быть представлены следующим образом в пронумерованных пунктах.

[00101] ПУНКТ 1. Компьютерный способ (400) отбора отобранной подгруппы (270) признаков из множества (230) признаков для обучения модуля машинного обучения, причем модуль машинного обучения исполняется электронным устройством (100),

модуль машинного обучения обучается классифицировать электронный документ в целевую категорию с целевой меткой,

а множество (230) признаков связано с электронным документом,

способ (400) выполняется на электронном устройстве (100), способ (400) включает в себя:

анализ электронным устройством (100) данного обучающего документа (210) для извлечения множества (230) признаков, связанных с ним, данный обучающий документ (210) обладает предварительно назначенной целевой меткой;

создание набора (335) параметров релевантности для данного еще не отобранного признака из множества (230) признаков с помощью итеративного выполнения:

определения электронным устройством (100) соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака с набором (335) параметров релевантности, включая один или несколько уже отобранных признаков из множества (230) признаков, по отношению к определению предварительно назначенной целевой метки;

добавления электронным устройством (100) соответствующего параметра релевантности к набору (335) параметров релевантности;

создание набора (345) параметров избыточности для данного еще не отобранного признака из множества (230) признаков с помощью итеративного выполнения:

определения электронным устройством (100) соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака по отношению к подгруппе (335) параметров релевантности и набору (345) параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества (230) признаков, по отношению к определению предварительно назначенной целевой метки;

добавления электронным устройством (100) соответствующего параметра избыточности к набору (345) параметров избыточности;

анализ электронным устройством (100) данного еще не отобранного признака для определения показателя значимости признака на основе набора (335) параметров релевантности и набора (345) параметров избыточности;

отбор электронным устройством (100) данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, и добавление данного отобранного признака к отобранной подгруппе (365, 270) признаков; и

сохранение модулем машинного обучения отобранной подгруппы (365, 270) признаков.

[00102] ПУНКТ 2 Способ (400) по п. 1, в котором способ (400) дополнительно включает в себя после анализа электронным устройством (100) данного обучающего документа (210) для извлечения множества (230) признаков, связанных с ним, бинаризацию множества (230) признаков и использование набора (250) бинаризированных признаков как множества (230) признаков.

[00103] ПУНКТ 3 Способ (400) по любому из пп. 1 - 2, в котором отобранная подгруппа признаков включает в себя предварительно определенное число k отобранных признаков, а итеративное создание набора (335) параметров релевантности, итеративное создание набора параметров (345) избыточности, анализ данных еще не отобранных признаков и отбор данного отобранного признака повторяется к раз.

[00104] ПУНКТ 4 Способ (400) по любому из пп. 1-3, в котором способ (400) дополнительно включает в себя прежде создания набора (335) параметров релевантности определение параметра t, определяющего число взаимодействующих признаков, и в котором определение соответствующего параметра релевантности итеративно осуществляется за t-1 этап, а определение соответствующего параметра избыточности итеративно осуществляется за t этапов.

[00105] ПУНКТ 5 Способ (400) по любому из пп. 1-4, в котором параметр t равен по меньшей мере 3.

[00106] ПУНКТ 6 Способ (400) по любому из пп. 1-5, в котором соответствующий параметр релевантности определяется на основе:

где I - взаимная информация;

с - предварительно назначенная целевая метка; а

b - данный бинаризированный еще не отобранный признак.

[00107] ПУНКТ 7 Способ (400) по любому из пп. 1-6, в котором параметр избыточности определяется на основе:

где I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный бинаризированный еще не отобранный признак; а

h - соответствующий параметр релевантности.

[00108] ПУНКТ 8 Способ (400) по любому из пп. 1-7, в котором анализ электронным устройством (100) данного еще не отобранного признака для определения показателя значимости признака на основе набора (335) параметров релевантности и набора (345) параметров избыточности определяется на основе:

где Ji - показатель значимости признака;

b - данный неотобранный бинаризированный признак;

B[f] - набор (250) бинаризированных признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

hj - данный параметр релевантности; а

gj - данный параметр избыточности.

[00109] ПУНКТ 9 Способ (400) по любому из пп. 1-8, в котором данный отобранный признак, связанный с наивысшим значением показателя значимости признака, определяется на основе:

где f - данный признак из множества (230) признаков; а

F\S - набор еще не отобранных признаков.

[00110] ПУНКТ 10 Способ (400) по любому из пп. 1-8, в котором способ (400) дополнительно включает в себя перед созданием второго набора (335) параметров релевантности:

анализ электронным устройством (100) каждого признака из множества (230) признаков для определения индивидуального параметра релевантности данного признака из множества (230) признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки; и

отбор электронным устройством (100) из множества (230) признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности, и добавление первого отобранного признака к отобранной подгруппе признаков.

[00111] ПУНКТ 11 Способ (400) по любому из пп. 1-9, в котором отобранный признак, связанный с наивысшим значением индивидуального параметра релевантности, определяется на основе:

где f - данный признак из множества признаков;

F - множество (230) признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

b - бинаризированный данный признак; а

B[f] - набор (250) бинаризированных признаков.

[00112] ПУНКТ 12 Способ (400) по любому из пп. 1-8, в котором создание соответствующего параметра релевантности дополнительно основано на множестве (230) признаков, и создание соответствующего параметра избыточности основано на отобранной подгруппе признаков.

[00113] ПУНКТ 13 Способ (400) по любому из пп. 1-12, в котором добавление данного отобранного признака к отобранной подгруппе (365, 270) признаков включает в себя добавление набора (335) параметров релевантности к отобранной подгруппе (365, 270) признаков.

[00114] ПУНКТ 14 Сервер (100) для отбора отобранной подгруппы признаков из множества (230) признаков для обучения модуля машинного обучения, модуль машинного обучения обучается классифицировать электронный документ в целевую категорию с целевой меткой, а множество признаков связано с электронным документом, сервер (100) включает в себя:

память;

процессор, соединенный с памятью, процессор выполнен с возможностью осуществлять:

анализ данного обучающего документа (210) для извлечения множества (230) признаков, связанных с ним, данный обучающий документ (210) обладает предварительно назначенной целевой меткой;

создание набора (335) параметров релевантности для данного еще не отобранного признака из множества (230) признаков с помощью итеративного выполнения:

определения соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака с набором (335) параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества (230) признаков, по отношению к определению предварительно назначенной целевой метки;

добавления соответствующего параметра релевантности к набору (335) параметров релевантности;

создание набора (345) параметров избыточности для данного еще не отобранного признака из множества (230) признаков с помощью итеративного выполнения:

определения соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака по отношению к подгруппе (335) параметров релевантности и набору (345) параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества (230) признаков, по отношению к определению предварительно назначенной целевой метки;

добавления соответствующего параметра избыточности к набору (345) параметров избыточности;

анализ данного еще не отобранного признака для определения показателя значимости признака на основе набора (335) параметров релевантности и набора (345) параметров избыточности;

отбор данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, и добавление данного отобранного признака к отобранной подгруппе признаков; и

сохранение в памяти отобранной подгруппы (365, 270) признаков.

[00115] ПУНКТ 15 Сервер (100) по п. 14, в котором процессор дополнительно выполнен с возможностью осуществлять после анализа данного обучающего документа (210) для извлечения множества (230) признаков, связанных с ним, причем данный документ (210) обладает предварительно назначенной целевой меткой, бинаризацию множества признаков и использование набора (250) бинаризированных признаков как множества (230) признаков.

[00116] ПУНКТ 16 Сервер (100) по любому из пп. 14-15, в котором отобранная подгруппа признаков включает в себя предварительно определенное число к отобранных признаков, а итеративное создание набора (335) параметров релевантности, итеративное создание набора параметров (345) избыточности, анализ данных еще не отобранных признаков и отбор данного отобранного признака повторяется к раз.

[00117] ПУНКТ 17 Сервер (100) по любому из пп. 14-16, в котором процессор выполнен с дополнительной возможностью осуществлять прежде создания набора (335) параметров релевантности определение параметра t, определяющего число взаимодействующих признаков, и в котором определение соответствующего параметра релевантности итеративно осуществляется за t-1 этап, а определение соответствующего параметра избыточности итеративно осуществляется за t этапов.

[00118] ПУНКТ 18 Сервер (100) по любому из пп. 14-17, в котором параметр t превышает 3.

[00119] ПУНКТ 19 Сервер (100) по любому из пп. 14-18, в котором соответствующий параметр релевантности определяется на основе:

где I - взаимная информация;

с - предварительно назначенная целевая метка; а

b - данный бинаризированный еще не отобранный признак.

[00120] ПУНКТ 20 Сервер (100) по любому из пп. 14-19, в котором соответствующий параметр избыточности определяется на основе:

I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный бинаризированный еще не отобранный признак; а

h - соответствующий параметр релевантности.

[00121] ПУНКТ 21 Сервер (100) по любому из пп. 14-20, в котором анализ данного еще не отобранного признака для определения показателя на основе набора (335) параметров релевантности и набора (345) параметров избыточности определяется на основе:

где Ji - показатель;

b - данный бинаризированный еще не отобранный признак;

B[f] - набор (250) бинаризированных признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

hj - соответствующий параметр релевантности; а

gj - параметр избыточности.

[00122] ПУНКТ 22 Сервер (100) по любому из пп. 14-21, в котором второй признак, связанный с наивысшим значением из набора (335) параметров релевантности и набора (345) параметров избыточности определяется на основе:

где f - признак из множества признаков; а

F\S - набор еще не отобранных признаков.

[00123] ПУНКТ 23 Сервер (100) по любому из пп. 14-22, в котором процессор выполнен с дополнительной возможностью осуществлять перед отбором второго набора (335) параметров релевантности:

анализ каждого признака из множества (230) признаков для определения индивидуального параметра релевантности данного признака из множества (230) признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки; и

отбор из множества (230) признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности, и добавление первого отобранного признака к отобранной подгруппе признаков.

[00124] ПУНКТ 24 Сервер (100) по любому из пп. 14-23, в котором индивидуальный параметр релевантности определяется на основе:

где f - признак из множества (230) признаков;

F - множество (230) признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный еще не отобранный признак; а

B[f] - набор (250) бинаризированных признаков.

[00125] ПУНКТ 25 Сервер (100) по любому из пп. 14-23, в котором создание соответствующего параметра релевантности дополнительно основано на множестве признаков и создание соответствующего параметра избыточности основано на отобранной подгруппе признаков.

[00126] ПУНКТ 26 Сервер (100) по любому из пп. 14-12, в котором добавление данного отобранного признака к отобранной подгруппе (365, 270) признаков включает в себя добавление набора (335) параметров релевантности к отобранной подгруппе (365, 270) признаков.

[00127] Важно иметь в виду, что не все упомянутые здесь технические результаты могут проявляться в каждом варианте осуществления настоящей технологии. Например, варианты осуществления настоящей технологии могут быть реализованы без проявления некоторых технических результатов, а другие варианты могут быть реализованы с проявлением других технических результатов или вовсе без них.

[00128] Некоторые из этих этапов, а также передача-получение сигнала хорошо известны в данной области техники и поэтому для упрощения были опущены в конкретных частях данного описания. Сигналы могут быть переданы-получены с помощью оптических средств (например, оптоволоконного соединения), электронных средств (например, проводного или беспроводного соединения) и механических средств (например, на основе давления, температуры или другого подходящего параметра).

[00129] Модификации и улучшения вышеописанных вариантов осуществления настоящей технологии будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящей технологии ограничен только объемом прилагаемой формулы изобретения.

1. Компьютерный способ отбора отобранной подгруппы признаков из множества признаков для обучения модуля машинного обучения, причем модуль машинного обучения исполняется электронным устройством,

модуль машинного обучения обучается классифицировать электронный документ в целевую категорию с целевой меткой,

а множество признаков связано с электронным документом,

способ выполняется электронным устройством,

способ включает в себя:

анализ электронным устройством данного обучающего документа для извлечения множества признаков, связанных с ним, данный обучающий документ обладает предварительно назначенной целевой меткой;

создание набора параметров релевантности для данного еще не отобранного признака из множества признаков с помощью итеративного исполнения:

определения электронным устройством соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака с набором параметров релевантности, включая один или несколько уже отобранных признаков из множества признаков, по отношению к определению предварительно назначенной целевой метки;

добавления электронным устройством соответствующего параметра избыточности к набору параметров избыточности;

создание набора параметров избыточности для данного еще не отобранного признака из множества признаков с помощью итеративного исполнения:

определения электронным устройством соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака по отношению к подгруппе параметров релевантности и набору параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества признаков, по отношению к определению предварительно назначенной целевой метки;

добавления электронным устройством соответствующего параметра избыточности к набору параметров избыточности;

анализ электронным устройством данного еще не отобранного признака для определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности;

отбор электронным устройством данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, и добавление данного отобранного признака к отобранной подгруппе признаков; и

сохранение модулем машинного обучения отобранной подгруппы признаков.

2. Способ по п. 1, в котором дополнительно включает в себя после анализа электронным устройством данного обучающего документа для извлечения множества признаков, связанных с ним, бинаризацию множества признаков и использование набора бинаризированных признаков как множества признаков.

3. Способ по п. 2, в котором отобранная подгруппа признаков включает в себя предварительно определенное число k отобранных признаков, а итеративное создание набора параметров релевантности, итеративное создание набора параметров избыточности, анализ данных еще не отобранных признаков и отбор данного отобранного признака повторяется k раз.

4. Способ по п. 3, в котором способ дополнительно включает в себя прежде создания набора параметров релевантности определение параметра t, определяющего число признаков, учтенных в наборе параметров релевантности, и в котором определение соответствующего параметра релевантности итеративно осуществляется за t-1 этап, а определение соответствующего параметра избыточности итеративно осуществляется за t этапов.

5. Способ по п. 4, в котором параметр t равен по меньшей мере 3.

6. Способ по п. 5, в котором соответствующий параметр релевантности определяется с использованием:

где I - взаимная информация;

с - предварительно назначенная целевая метка; а

b - данный еще не отобранный признак.

7. Способ по п. 6, в котором соответствующий параметр избыточности определяется с использованием:

где I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный еще не отобранный признак; а

h1, … hj-1 - подгруппа параметров релевантности.

8. Способ по п. 7, в котором анализ электронным устройством данного еще не отобранного признака для определения показателя значимости признака на основе подгруппы параметров релевантности и подгруппы параметров избыточности определяется с использованием:

где Ji - показатель значимости признака;

b - данный неотобранный бинаризированный признак;

B[f] - набор бинаризированных признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

h1, … ht-1 - набор параметров релевантности; а

g1, …, gt - набор параметров избыточности.

9. Способ по п. 8, в котором данный отобранный признак, связанный с наивысшим значением показателя значимости признака, определяется с использованием:

где f - данный отобранный признак из множества признаков; а

F\S - набор еще не отобранных признаков.

10. Способ по п. 8, в котором способ дополнительно включает в себя перед созданием второго набора параметров релевантности:

анализ электронным устройством каждого признака из множества признаков для определения индивидуального параметра релевантности данного признака из множества признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки; и

отбор электронным устройством из множества признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности, и добавление первого отобранного признака к отобранной подгруппе признаков.

11. Способ по п. 10, в котором индивидуальный параметр релевантности определяется с использованием:

где f - данный признак из множества признаков;

F - множество признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный признак; а

B[f] - набор бинаризированных признаков.

12. Способ по п. 9, в котором создание соответствующего параметра релевантности дополнительно основано на множестве признаков и создание соответствующего параметра избыточности основано на отобранной подгруппе признаков.

13. Способ по п. 12, в котором добавление данного отобранного признака к отобранной подгруппе признаков включает в себя добавление набора параметров релевантности к отобранной подгруппе признаков.

14. Сервер для отбора отобранной подгруппы признаков из множества признаков для обучения модуля машинного обучения, модуль машинного обучения обучается классифицировать электронный документ в целевую категорию с целевой меткой, а множество признаков связано с электронным документом, сервер включает в себя:

память;

процессор, соединенный с памятью, процессор выполнен с возможностью осуществлять:

анализ данного обучающего документа для извлечения множества признаков, связанных с ним, данный обучающий документ обладает предварительно назначенной целевой меткой;

создание набора параметров релевантности для данного еще не отобранного признака из множества признаков с помощью итеративного исполнения:

определения соответствующего параметра релевантности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр релевантности указывает на уровень синергизма данного еще не отобранного признака с набором параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества признаков, по отношению к определению предварительно назначенной целевой метки;

добавления соответствующего параметра релевантности к набору параметров релевантности;

создание набора параметров избыточности для данного еще не отобранного признака из множества признаков с помощью итеративного исполнения:

определения соответствующего параметра избыточности данного еще не отобранного признака по отношению к предварительно назначенной целевой метке, причем параметр избыточности указывает на уровень избыточности данного еще не отобранного признака по отношению к подгруппе параметров релевантности и набору параметров релевантности, включающим в себя один или несколько уже отобранных признаков из множества признаков, по отношению к определению предварительно назначенной целевой метки;

добавления соответствующего параметра избыточности к набору параметров избыточности;

анализ данного еще не отобранного признака для определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности;

отбор данного отобранного признака, причем данный отобранный признак связан с наивысшим значением показателя значимости признака, и добавление данного отобранного признака к отобранной подгруппе признаков; и

сохранение в памяти отобранной подгруппы признаков.

15. Сервер по п. 14, в котором процессор дополнительно выполнен с возможностью осуществлять после анализа данного обучающего документа для извлечения множества признаков, связанных с ним, причем данный документ обладает предварительно назначенной целевой меткой, бинаризацию множества признаков и использование набора бинаризированных признаков как множества признаков.

16. Сервер по п. 15, в котором отобранная подгруппа признаков включает в себя предварительно определенное число k отобранных признаков, а итеративное создание набора параметров релевантности, итеративное создание набора параметров избыточности, анализ данных еще не отобранных признаков и отбор данного отобранного признака повторяется k раз.

17. Сервер по п. 16, в котором процессор выполнен с дополнительной возможностью осуществлять, прежде создания набора параметров релевантности определение параметра t, определяющего число признаков, учтенных в наборе параметров релевантности, и в котором определение соответствующего параметра релевантности итеративно осуществляется за t-1 этап, а определение соответствующего параметра избыточности итеративно осуществляется за t этапов.

18. Сервер по п. 17, в котором параметр t превышает 3.

19. Сервер по п. 18, в котором соответствующий параметр релевантности определяется с использованием:

где I - взаимная информация;

с - предварительно назначенная целевая метка; а

b - данный бинаризированный еще не отобранный признак.

20. Сервер по п. 19, в котором соответствующий параметр избыточности определяется с использованием:

I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный бинаризированный еще не отобранный признак; а

h1, … hj-1 - подгруппа параметров релевантности.

21. Сервер по п. 20, в котором анализ данного еще не отобранного признака для определения показателя на основе набора параметров релевантности и набора параметров избыточности определяется с использованием:

где Ji - показатель;

b - данный бинаризированный еще не отобранный признак;

B[f] - набор бинаризированных признаков.

I - взаимная информация;

с - предварительно назначенная целевая метка;

h1, … ht-1 - набор параметров релевантности; а

g1, …, gt - набор параметров избыточности.

22. Сервер по п. 21, в котором данный отобранный признак, связанный с наивысшим значением показателя значимости признака, определяется с использованием:

где f - данный признак из множества признаков; а

F\S - набор еще не отобранных признаков.

23. Сервер по п. 22, в котором процессор выполнен с дополнительной возможностью осуществлять перед отбором второго набора параметров релевантности:

анализ каждого признака из множества признаков для определения индивидуального параметра релевантности данного признака из множества признаков по отношению к предварительно назначенной целевой метке, причем индивидуальный параметр релевантности указывает на степень релевантности данного признака по отношению к определению предварительно назначенной целевой метки; и

отбор из множества признаков первого отобранного признака, причем первый отобранный признак связан с наивысшим значением индивидуального параметра релевантности, и добавление первого отобранного признака к отобранной подгруппе признаков.

24. Сервер по п. 23, в котором индивидуальный параметр релевантности определяется с использованием:

где f - признак из множества признаков,

F - множество признаков;

I - взаимная информация;

с - предварительно назначенная целевая метка;

b - данный еще не отобранный признак; а

B[f] - набор бинаризированных признаков.

25. Сервер по п. 22, в котором создание соответствующего параметра релевантности дополнительно основано на множестве признаков и создание соответствующего параметра избыточности основано на отобранной подгруппе признаков.

26. Сервер по п. 25, в котором добавление данного отобранного признака к отобранной подгруппе признаков включает в себя добавление набора параметров релевантности к отобранной подгруппе признаков.



 

Похожие патенты:

Изобретение относится к интеллектуальным контроллерам, использующим генетический алгоритм для поиска структуры нейронной сети и весовых коэффициентов ее синаптических связей.

Изобретение относится к способам мониторинга состояния телемеханизированных скважин, погружного оборудования на месторождении добычи нефти. Техническим результатом является появление конкретного способа контроля функционирования нефтепромысловых объектов и погружного оборудования по данным телеметрии на месторождениях добычи нефти.

Группа изобретений относится к нейронным сетям и может быть использована для нейронного временного кодирования, обучения и распознавания. Техническим результатом является уменьшение сложности кодирования.

Изобретение относится к способам прочностных испытаний самолета. Для оценки нагружения конструкции самолета при летных прочностных испытаниях измеряют значения силовых факторов реакции конструкции датчиками деформаций, размещенными на конструкции самолета, передают измеренные значения и значения параметров полета из памяти бортовых регистраторов в память компьютеров, строят, обучают и тестируют четыре искусственные нейронные сети.

Группа изобретений относится к нейронным системам и может быть использована для локального правила состязательного обучения, которое дает в результате разреженную связность среди блоков обработки сети.

Изобретение относится к технической кибернетике. Технический результат - повышение достоверности диагностирования сложного технического объекта и снижение трудоемкости.

Изобретение относится к области сетей и телекоммуникаций и может быть использовано в иерархических протоколах беспроводной сенсорной сети (БСС). Техническим результатом является автоматическое построение и поддержание работоспособности структуры сети.

Изобретение относится к области автоматизированного управления технологическими процессами и может применяться для экстренных вычислений при контроле чрезвычайных ситуаций на основе динамической модели для широкого класса предметно-ориентированных приложений в сложной программно-аппаратной среде.

Изобретение относится к искусственным нейронным сетям и может быть использовано для обучения нейронной сети при моделировании физических явлений технологических процессов.

Изобретение относится к области автоматики и вычислительной техники и может быть использовано для контроля и технической диагностики сложного технологического оборудования, в том числе - станочного оборудования и гибких производственных систем.

Изобретение относится к осуществляемым на компьютере способам и системам обработки документов в целом и, в частности, к способу и устройству для определения типа цифрового документа.

Изобретение относится к области Интернет-технологий, в частности к отображению страниц. Техническим результатом является расширение арсенала технических средств отображения страниц.

Изобретение относится к области коммуникационных технологий. Технический результат заключается в обеспечении автоматического выбора музыки во время просмотра пользователем фотографий в фотоальбоме с фотографиями лиц.

Изобретение относится к области идентификации аудиоинформации. Технический результат заключается в сохранении коммуникационных ресурсов для связи с сервером и обеспечении отображения на единственном интерфейсе меньшего объема информации.
Изобретение относится к области информационных технологий, в частности к способам поиска информации в глобальных и/или локальных сетях, и позволяет по запросу пользователя найти требуемую информацию и контент в компьютерных сетях.

Изобретение относится к технологиям сетевой связи. Технический результат заключается в повышении безопасности передачи данных.

Изобретение относится к способам и системам хранения, извлечения и обновления данных, связанных с путем и файлом. Технический результат заключается в повышении эффективности обработки данных.

Изобретение относится к способу и серверу определения последовательности просмотра веб-страниц. Технический результат заключается в определении последовательности просмотра новых веб-страниц и ускорении просмотра более релевантных новых веб-страниц.

Изобретение относится к области обнаружения спама. Техническим результатом является обнаружение спама в сообщении, отправленном по электронной почте.

Группа изобретений относится к здравоохранению, а также наукометрическим способам и системам анализа данных о научно-исследовательских проектах с целью выявления перспективного проекта или направления исследования в предметной области «биомедицина» по максимальному количеству набранных баллов по оцениваемым критериям и построения рейтинга для нескольких оцениваемых проектов или направлений исследований по возрастанию или убыванию упомянутых баллов.

Изобретение относится к области компьютерных технологий. Технический результат заключается в оптимизации качества ранжирования.

Изобретение относится к области вычислительной техники, в частности к системам машинного обучения. Технический результат заключается в обеспечении классификации обучающего документа в категорию с целевой меткой. Технический результат достигается за счет анализа обучающего документа для извлечения множества признаков и для данного еще не отобранного признака из множества признаков: итеративного создания набора параметров релевантности, итеративного создания набора параметров избыточности и определения показателя значимости признака на основе набора параметров релевантности и набора параметров избыточности, отбора признака, связанного с наивысшим значением показателя значимости признака, и добавления отобранного признака к отобранной подгруппе признаков. 2 н. и 24 з.п. ф-лы, 5 ил.

Наверх