Классификация данных выборок



Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок
Классификация данных выборок

 


Владельцы патента RU 2517286:

КОНИНКЛЕЙКЕ ФИЛИПС ЭЛЕКТРОНИКС Н.В. (NL)

Изобретение относится к классификации биомолекулярных данных. Техническим результатом является повышение надежности классификации. Предусмотрена система (100) классификации для классификации биомолекулярных данных. Вход системы принимает множество признаков (102) выборки, которая должна быть классифицирована, и множество соответствующих оценок (104) ошибок. Статистический модуль (106) ассоциирует функции (108) плотности распределения вероятностей с признаками, при этом соответствующие функции плотности распределения вероятностей зависят от оценок ошибок. Модуль (110) репликации формирует множество возмущенных реплик (112) выборки, при этом признаки являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей. Классификатор (114) классифицирует возмущенные реплики на основе возмущенных признаков. Анализатор (118) классифицирует выборку, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик (116), чтобы получать классификацию (120) выборок. 3 н. и 10 з.п. ф-лы, 6 ил.

 

Область техники, к которой относится изобретение

Изобретение относится к классификации, в частности к классификации выборок, заключающих в себе зашумленные данные измерений. Более конкретно, изобретение относится к классификации биомолекулярных данных.

Уровень техники

В области молекулярной диагностики данные с биочипов и протеомические данные все в большей степени используются для того, чтобы создавать новые тесты для классификации пациентов. Пример такого теста описывается в "Multiclass classification of microarray data with repeated measurements: application to cancer" авторов K.Y. Yeung и R.E. Bumgarner, в Genome Biology, 2004, 4:R83.

Классификация данных с биочипов и протеомических данных может касаться, например диагностики и стратификации пациентов. Нахождение правильных биомаркеров, например, правильного набора генов или протеинов, на которых следует базировать эту классификацию, и нахождение правильного правила для того, чтобы преобразовывать измерения этих биомаркеров в классификацию, имеет первостепенное значение, поскольку оно может оказывать большое влияние на точность классификации. С учетом биомаркеров и правила классификации, новые случаи могут быть классифицированы в медицинском учреждении или терапевтом.

Биочипы предлагают важный инструмент для биологов за счет упрощения возможности одновременно измерять тысячи уровней экспрессии генов в расчете на выборку. Одна из главных задач классификации на основе биочипов состоит в том, чтобы преобразовывать набор измерений экспрессии генов, признаков, в данную целевую метку, т.е. класс пациента. В отличие от измерения температуры тела человека или роста человека, измерение уровней экспрессии генов является очень сложным, затратным и длительным. Это многоэтапный процесс, в котором должно выполняться множество отдельных процедур. Некоторые из этих этапов заключают в себе условия, которые не могут полностью управляться, и могут приводить к ненадежности результата классификации.

Сущность изобретения

Усовершенствованная классификация биомолекулярных данных может обеспечить дополнительные преимущества. Чтобы оптимальнее разрешать эту проблему, в первом аспекте изобретения предоставляется система классификации, которая содержит:

- ввод для приема данных измерений, содержащих измерения множества численных признаков выборки, которая должна быть классифицирована, и множества соответствующих оценок ошибок соответствующих из множества численных признаков;

- статистический модуль для ассоциирования соответствующих функций плотности распределения вероятностей с соответствующими численными признаками из множества численных признаков, при этом соответствующие функции плотности распределения вероятностей зависят от соответствующих оценок ошибок соответствующих численных признаков;

- модуль репликации для формирования множества возмущенных реплик выборки, причем возмущенные реплики содержат возмущенные признаки, при этом соответствующие численные признаки из множества численных признаков являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей, чтобы получать возмущенные признаки;

- классификатор для классификации соответствующих возмущенных реплик из множества возмущенных реплик на основе возмущенных признаков и посредством применения заранее определенных критериев классификации, чтобы получать классифицированные реплики, при этом каждая классифицированная реплика имеет ассоциированный с ней класс;

- анализатор для классификации выборки, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик, чтобы получать классификацию выборок.

Поскольку численные признаки реплик являются возмущенными, классификация, в общем, не всегда является одинаковой для всех реплик. Кроме того, поскольку признаки реплик являются возмущенными согласно распределению вероятностей, приписанному шуму, который присутствует в измеренных признаках, число реплик, классифицированных как принадлежащие конкретному классу, связано с вероятностью или правдоподобием того, что выборка, которая должна быть классифицирована, принадлежит данному конкретному классу с учетом шума. Следовательно, анализатор может принимать во внимание эту вероятность, чтобы предоставлять усовершенствованную классификацию и/или предоставлять большее понимание по надежности классификации.

Предпочтительно, статистический модуль варьирует дисперсию в зависимости от оценок ошибок, например пропорционально оценкам ошибок.

Например, анализатор назначает класс, имеющий наивысшую вероятность или правдоподобие, выборке. Это повышает точность (например, специфичность и/или чувствительность) классификации.

Предпочтительно, анализатор выполнен с возможностью вычисления значения, служащего признаком правдоподобия (т.е. указывающего на правдоподобие) того, что выборка принадлежит конкретному классу. Это предоставляет пользователю системы классификации индикатор, который он может использовать для того, чтобы определять, может он или нет полагаться на классификации. Правдоподобие может указываться, например, посредством значения вероятности или p-значения теста статистической гипотезы.

Предпочтительно, множество значений правдоподобия вычисляется, при этом каждое соответствующее значение правдоподобия служит признаком вероятности или правдоподобия того, что выборка принадлежит соответствующему конкретному классу. Это дает возможность пользователю получать лучшее понимание возможных классов, которым может принадлежать выборка, которое может использоваться для того, чтобы определять то, требуются или нет дополнительные диагностики.

Чтобы получать хороший классификатор, классификатор может быть обучен с использованием набора обучающих данных, который содержит множество возмущенных реплик каждой выборки.

Другие аспекты изобретения заданы в независимых пунктах формулы изобретения. Зависимые пункты формулы изобретения задают преимущественные варианты осуществления.

Краткое описание чертежей

Эти и другие аспекты изобретения дополнительно поясняются и описываются со ссылкой на чертежи, на которых:

фиг.1 является блок-схемой системы классификации;

фиг.2 является блок-схемой последовательности операций способа, иллюстрирующей этапы обработки системы классификации;

фиг.3 является блок-схемой последовательности операций способа, иллюстрирующей базовый процесс обучения классификатора и выполнения классификации с помощью обученного классификатора;

фиг.4 является блок-схемой последовательности операций способа, иллюстрирующей процесс выбора соответствующего поднабора признаков;

фиг.5 является блок-схемой последовательности операций способа, иллюстрирующей процесс использования шума при измерении в отдельных признаках в процессе выбора признаков;

фиг.6 является блок-схемой аппаратной архитектуры.

Подробное описание вариантов осуществления

Одна из трудностей с молекулярными измерениями, такими как данные с биочипов, заключается в том, что они являются достаточно зашумленными. Один из источников этого шума в данных с биочипов обусловлен изменением в гибридизации. Тем не менее, измерение с помощью биочипов не только дает индикатор относительно экспрессии генов, но также дает оценку для ошибки, вводимой, помимо прочего, посредством разностей гибридизации в матрицу. Эта оценка ошибки использована в некоторой степени на фазе обнаружения биомаркеров, например, на этапе предварительной фильтрации, как описано в L.J. van 't Veer и др. "Gene expression profiling predicts clinical outcome of breast cancer", Nature, 415:530-536, 2002 (в дальнейшем: Van 't Veer и др.).

Если оценка ошибки не используется в конечной классификации, классификация нового случая основана только на измерениях экспрессии генов, без учета того, что эти измерения могут быть очень неточными.

В варианте осуществления случай классифицируется не один раз на основе фактических измерений, а многократно, при этом каждый раз шумовые возмущения добавляются согласно данной оценке ошибки. Подробнее, это может выполняться следующим образом.

Обычно задается n генов, используемых в биомаркере, и измерения xi для генов i=1,..., n. Эти измерения генов используются в классификаторе, который может рассматриваться как функция f(x) и который вызывается один раз для данных x=(x1,..., xn) для случая.

Если оценка ошибки каждого измерения xi обозначается посредством ei, то новый экземпляр x' создается посредством прибавления шумовых возмущений к x. Такой новый экземпляр x' или реплика создается многократно (например, 1000 раз). Если, например, ошибка имеет нормальное распределение (как типично имеет место в данных с биочипов) и ei указывает оцененное среднее квадратическое отклонение измерения, то новый экземпляр формируется посредством следующего:

xi'=xi+N(0, ei),

- где N(0, ei) - это нормальное распределение, имеющее среднее значение в нуль и среднее квадратическое отклонение в ei. Затем классификатор f применяется к каждой из реплик, чтобы получать классифицированные реплики. Результаты классифицированных реплик комбинируются в один результат. Правило, которое может применяться для вышеуказанного, состоит в том, чтобы использовать мажоритарную систему, причем реплика, классифицированная с помощью конкретного класса, представляет мажоритарную выборку для этого класса. Помимо этого, можно демонстрировать то, как часто каждая мажоритарная выборка возникает, чтобы предоставлять индикатор относительно неопределенности, вводимой посредством погрешности измерения. Этот вид информации затем может использоваться в клинической системе поддержки принятия решений (CDSS), чтобы принимать во внимание в итоговой рекомендации.

Эти технологии могут использоваться не только для данных с биочипов, но также и для других данных до тех пор, пока оценка доступна для шума при измерении. Этот шум может быть обусловлен техническим шумом в эксперименте с использованием биочипов, а также, например, шумом от шумовых моделей на основе повторных экспериментов.

При применении технологий, описанных выше, погрешность измерения влияет на результат классификации, поскольку технологии используют не только фактические измерения, но также и оценки ошибок. Кроме того, способ может давать не только один результат классификации, но также и распределение вероятностей по различным результатам.

Фиг.1 иллюстрирует вариант осуществления системы 100 классификации для классификации биомолекулярных данных. Эта система 100 классификации имеет ввод для приема данных измерений. Данные измерений могут содержать, например, по меньшей мере, одно из следующего:

(a) данные экспрессии генов,

(b) данные транскрипта ДНК (измеряют не только экспрессию генов, но также и другие фрагменты ДНК, которые могут экспрессировать в клетке и которые могут влиять на функцию клетки), или

(c) протеомические данные (например, концентрации числа протеинов в выборке).

Вышеуказанные типы данных (a) и (b) типично могут измеряться с использованием биочипов или образцов. Тип данных (c) типично может измеряться с использованием масс-спектрометра. Тем не менее, другие типы измерений также могут использоваться.

Ввод системы 100 классификации выполнен с возможностью приема измерений множества признаков 102 выборки, которая должна быть классифицирована. В данном документе признаки содержат, например, типы данных, указанных выше согласно (a), (b) и (c). Например, признак служит признаком концентрации конкретного вещества в выборке. Признак может представлять то, в какой степени конкретный ген или транскрипт ДНК приводит к экспрессии. Ввод системы 100 классификации также выполнен с возможностью приема множества соответствующих оценок 104 ошибок соответствующих из множества признаков. Эти оценки ошибок предоставляют индикатор относительно степени, до которой можно основываться на измерении признака.

Система 100 содержит статистический модуль 106 для ассоциирования соответствующих функций 108 плотности распределения вероятностей с соответствующими из множества признаков. Функции 108 плотности распределения вероятностей могут представлять функцию плотности распределения вероятностей погрешности измерения, когда функция плотности распределения вероятностей типично имеет среднее значение в нуль и дисперсию, зависящую от оценки ошибки. Альтернативно, функции 108 плотности распределения вероятностей могут представлять функции плотности распределения вероятностей самих признаков, и при этом среднее значение такой функции плотности распределения вероятностей типично соответствует измерению признака, а дисперсия зависит от оценки ошибки признака. Общий тип распределения вероятностей, лежащего в основе функции 108 плотности распределения вероятностей, может быть одинаковым для всех признаков. Как правило, нормальное распределение может использоваться для функций плотности распределения вероятностей, в которых дисперсия зависит от соответствующих оценок 104 ошибок, а средние составляют нуль (или соответствуют измеренному признаку). Тем не менее, другие функции плотности распределения вероятностей могут использоваться, в частности, когда известно, что измерение имеет распределение ошибок, которое не является нормальным распределением. В прямой реализации системы 100 классификации независимое распределение вероятностей допускается для каждого признака, тем не менее, в более усовершенствованной реализации функции плотности распределения вероятностей могут быть многопеременными и зависеть от нескольких или всех измеренных признаков 102 и/или оценок 104 ошибок.

Система 100 содержит модуль 110 репликации для формирования множества возмущенных реплик 112 выборки, т.е. возмущенных реплик множества признаков 102 (и, возможно, множества оценок 104 ошибок, при этом оценки ошибок могут быть возмущенными или невозмущенными). Чтобы формировать возмущенную реплику, модуль 110 репликации произвольно возмущает признаки 102 согласно соответствующим надлежащим функциям плотности распределения вероятностей. Эти соответствующие функции плотности распределения вероятностей могут иметь различную дисперсию на основе оценок ошибок, ассоциированных с признаками посредством статистического модуля 106. Как пояснено выше, в прямой реализации все функции плотности распределения вероятностей могут иметь одинаковый тип распределения (например, нормальное распределение). Возмущенные реплики содержат возмущенные признаки.

Система 100 содержит классификатор 114 для классификации соответствующих из множества возмущенных реплик на основе возмущенных признаков. Классификатор оценивает возмущенные признаки возмущенной реплики посредством применения заранее определенных критериев классификации, чтобы получать классифицированные реплики 116. Множество видов классификаторов известно в данной области техники. Подходящим классификатором может быть, например, классификатор на основе ближайшего среднего или метод опорных векторов.

Система 100 содержит анализатор 118 для классификации выборки, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик 116, чтобы получать класс выборок 120. Статистический анализ, выполняемый посредством анализатора 118, может содержать систему на основе мажоритарных выборок (например, класс, имеющий наиболее возмущенные реплики, становится классификацией выборок).

Чтобы вычислять значение, указывающее правдоподобие того, что выборка принадлежит конкретному классу, может вычисляться процент от реплик в классе выборок. Это дает индикатор относительно надежности классификации выборок, который может использоваться оператором, чтобы определять то, требуются или нет дополнительные измерения или какие-либо другие диагностические действия для того, чтобы получать диагностику с достаточной достоверностью. Правдоподобием может быть, например, вероятность или p-показатель (мера достоверности).

Анализатор 118 также может быть выполнен с возможностью вычислять множество значений правдоподобия, при этом каждое соответствующее значение правдоподобия служит признаком вероятности, правдоподобия или достоверности того, что выборка принадлежит соответствующему конкретному классу. Это может использоваться, например, для того чтобы обнаруживать, является или нет один из классов намного более вероятным, чем любой другой класс, либо два или более классов являются приблизительно одинаково вероятными. Во втором случае результат может быть менее надежным, и полезно знать это. Также это позволяет исключать один или более классов, если они имеют очень низкое правдоподобие.

В конкретно эффективном варианте осуществления, который при этом предоставляет хорошие результаты, статистический модуль 106 выполнен с возможностью ассоциирования нормальных распределений с нулевым средним и средними квадратическими отклонениями, пропорциональными оценкам ошибок.

Классификатор 114 может быть выполнен с возможностью применения соответствующих весовых коэффициентов к соответствующим из множества признаков отдельных реплик на основе соответствующих оценок ошибок соответствующих признаков. Таким образом, влияние признаков, имеющих большую оценку ошибки, уменьшается по сравнению с влиянием признаков, имеющих меньшую оценку ошибки. Это улучшает отдельные классификации возмущенных реплик и может использоваться для того, чтобы уменьшать влияние признаков, имеющих очень большую оценку ошибки.

Например, допустим, что классификатор использует метод ближайшего центроида, в котором средний профиль (центроид) предоставляется для каждого из классов. Выборка (или, более конкретно, возмущенная реплика) может быть классифицирована посредством вычисления расстояний до различных центроидов и выбора ближайшего центроида. Затем, если определенное измерение пациента, который должен быть классифицирован, является очень зашумленным, влияние этого измерения на классификацию может уменьшаться посредством модификации вычисления расстояний (например, признаки могут взвешиваться с помощью весового коэффициента, который является обратно пропорциональным оцененной ошибке измерения признака). Если правило k-го ближайшего соседа используется, то также можно взвешивать долю измерения в используемом показателе расстояния. Оно может быть основано не только на погрешности измерения пациента, который должен быть классифицирован, но также и на ошибке в измерениях "соседей". Оно может использоваться не только для данных с биочипов, но также и для других данных до тех пор, пока оценка доступна для шума при измерении. Оно включает в себя не только технический шум, к примеру, присутствующий в экспериментах с использованием биочипов, но также может включать в себя шум от шумовых моделей на основе повторных измерений.

Система 100 классификации может быть встроена в измерительную систему, такую как, например, система с биочипами, или образец, или масс-спектрометр. Она также может быть реализована как компьютерный программный продукт, который должен выполняться на любом подходящем устройстве обработки, таком как рабочая станция, персональный компьютер, PDA и т.п. Предпочтительно, устройство обработки связано с измерительной системой через линию передачи данных (либо прямую линию связи, такую как USB, либо через сеть, такую как сеть по стандарту Ethernet, беспроводная LAN или Интернет). Результаты анализатора могут отображаться на дисплее устройства обработки или на отдельном дисплее, они могут быть напечатаны или переданы в другой программный модуль или другое устройство для дополнительной обработки. Например, вывод анализатора может быть вводом клинической системы поддержки принятия решений.

Такая клиническая система поддержки принятия решений может формировать диагностику на основе вывода системы 100 классификации и любых других данных, которые могут быть доступными для клинической системы поддержки принятия решений. Вывод анализатора также может использоваться в системе автоматизированного обнаружения и автоматизированной диагностики.

Типично классификатор 114 должен быть обучен для того, чтобы давать надежные результаты классификации. Преимущества, например, возмущенных реплик также могут использоваться в ходе процедуры обучения. С этой целью могут предоставляться формирователь наборов обучающих данных и обучающий модуль. Эти элементы не показываются на чертеже. Чтобы обучать классификатор 114, формирователь наборов обучающих данных формирует набор обучающих данных. Предпочтительно, формирователь наборов обучающих данных выполнен с возможностью включения множества возмущенных реплик в набор обучающих данных. Например, он начинает с набора обучающих данных, содержащего измеренные признаки множества выборок. Эти измеренные признаки получаются из микрообразца, например, и предпочтительно сопровождаются с классификацией для контроля данных. Измеренные признаки каждой выборки реплицируются такое число раз, чтобы получать множество возмущенных реплик каждой выборки. Обучающий модуль используется для того, чтобы обучать классификатор с использованием таким образом сформированного набора обучающих данных. После обучения обученный классификатор может использоваться для того, чтобы классифицировать новые выборки, предпочтительно вместе с набором возмущенных реплик новой выборки.

Фиг.2 иллюстрирует этапы обработки способа классификации биомолекулярных данных. Способ инициируется на этапе 200, например, в ответ на команду пользовательского ввода. На этапе 202 данные измерений принимаются. Данные измерений содержат измерения множества признаков 102 выборки, которая должна быть классифицирована, и множества соответствующих оценок 104 ошибок соответствующих признаков из множества признаков. На этапе 204 соответствующие функции 108 плотности распределения вероятностей ассоциируются с соответствующими из множества признаков. Соответствующая дисперсия соответствующих функций плотности распределения вероятностей зависит от соответствующих оценок ошибок соответствующих признаков. На этапе 206 формируется множество возмущенных реплик 112 выборки. Возмущенные реплики содержат возмущенные признаки. Соответствующие из множества признаков являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей, чтобы получать возмущенные признаки. На этапе 208 соответствующие из множества возмущенных реплик классифицируются на основе возмущенных признаков и посредством применения заранее определенных критериев классификации. Это приводит к классифицированным репликам 116. Как результат каждая классифицированная реплика имеет ассоциированный класс. На этапе 210 выборка классифицируется на основе статистического анализа классифицированных реплик 116, чтобы получать классификацию выборок 120.

Этот способ может быть реализован посредством электронной схемы или, предпочтительно, посредством компьютерного программного продукта, содержащего машиночитаемые инструкции.

Фиг.6 иллюстрирует аппаратную архитектуру, подходящую для того, чтобы реализовывать систему по фиг.1 и/или способ по фиг.2, а также другие технологии, описанные в этом тексте. Показанная аппаратная архитектура является просто примером. Чертеж показывает процессор 602 и запоминающее устройство 606. Компьютерный программный продукт может быть загружен в запоминающее устройство 606 (например, запоминающее устройство ROM или RAM), и процессор 602 выполнен с возможностью осуществлять этапы, заданные посредством машиночитаемых инструкций и сохраненные в запоминающем устройстве 606. Компьютерный программный продукт содержит машиночитаемые инструкции, необходимые для применения одной или более технологий, описанных в этом тексте. Ввод 604 может использоваться для того, чтобы инициировать определенные действия, такие как ввод данных, обработка данных, начало классификации, управление визуализацией и другой вывод результатов. Дисплей 612, например, предусматривает способ показывать результаты классификации. Порт 608 связи может подключаться, например, к микрообразцу, возможно, через сеть, как описано выше. Порт 608 связи также может подключаться к устройству, которое дополнительно обрабатывает вывод системы 100 или способа, например, чтобы предоставлять поддержку принятия решений. Альтернативно, данные могут предоставляться посредством устройства 610 на съемном носителе (например, устройства чтения DVD или устройства чтения CD-ROM или USB-карты на основе флэш-памяти). Если устройство на съемном носителе имеет возможность записи (например, оно является совместимым с DVD+RW или является USB-картой на основе флэш-памяти), также можно выводить конечные результаты и/или промежуточные результаты системы 100 классификации на съемные носители.

Биочипы, по сути, являются зашумленной технологией с варьирующимися степенями неопределенности при отдельных измерениях. Степень неопределенности в измерении с помощью биочипов может быть определена количественно через шумовые модели, которые пытаются определять количественно различные источники, которые возмущают процесс измерения. Они предоставляют информацию по изменчивости измерений с помощью биочипов, например, в форме доверительных интервалов или P-значений. Эта информация может быть расширена на определение дифференциальной экспрессии или задачи кластеризации. Тем не менее, информация изменчивости также может использоваться в задачах классификации. Такой шум от признаков оказывает влияние на выбор и классификацию признаков.

Биочипы могут измерять экспрессии генов косвенно через измерения интенсивности гибридизации. Измеренная интенсивность гибридизации является приблизительно пропорциональной распространенности мРНК в выборке. Вероятно, наиболее важное применение этих измерений состоит в том, чтобы изучать изменения в экспрессии генов при различных условиях. В двухцветных матрицах два источника мРНК конкурентно гибридизируются в одну матрицу. В расчете на пробу получаются две меры интенсивности, I1(i,j) и I2(i,j), где i - это индекс биочипа, а j представляет "ген" или целевую последовательность. Зачастую имеется интерес к логарифмическому отношению измерений интенсивности, задаваемому посредством следующего:

Соотношение называется кратным изменением. Следует отметить, что когда обе интенсивности равны, xij равно нулю. Ненулевое логарифмическое отношение отражает изменение в измеренной интенсивности между отдельными интенсивностями. Например, логарифмическое отношение в 2 подразумевает, что интенсивность I2 в 102=100 раз превышает интенсивность I1. Взятие логарифмов этих кратных изменений имеет несколько преимуществ, поскольку оно имеет тенденцию симметрировать в ином случае более асимметричные распределения интенсивности и интерпретирует регулирование вверх и вниз аналогично, к примеру:

Как указано выше, отдельные измерения интенсивности с помощью биочипов являются очень зашумленными. Так называемые модели ошибок предоставляют в каждое измерение интенсивности оценку его изменчивости. Как результат, значения признаков xij также являются стохастическими.

Наборы данных, которые использованы в двух предыдущих исследованиях, используются для того, чтобы оценивать производительность технологий, раскрытых в данном документе. Оба исследования рассматривают группы пациенток, у всех из которых обнаружен рак молочной железы. Цель в Van 't Veer и др. состоит в том, чтобы определять сигнатуру экспрессии генов, предположительно присутствующую в удаленной опухолевой ткани, которая может использоваться для того, чтобы прогнозировать, должен или нет развиваться у пациента отдаленный метастаз в течение 5 лет. Эти пациенты являются так называемыми пациентами с отрицательным анализом лимфатических узлов, т.е. у них отсутствуют опухолевые клетки в региональных лимфатических узлах при диагностике.

Данные Van 't Veer и др. содержат обучающий набор из 78 пациентов и набор для проверки достоверности из 19 пациентов. Другой набор данных описан в "A gene-expression signature as the predictor of survival in breast cancer" авторов Van de Vijver и др., New England Journal of Medicine, 347 (25):1999-2009, декабрь 2002 года, Evaluation Studies (в дальнейшем: Van de Vijver и др.). Van de Vijver и др. интерпретирует когорту из 295 пациентов, которая использована для того, чтобы дополнительно проверять достоверность прогностического значения сигнатуры, извлеченного в Van 't Veer и др. Оба исследования используют одинаковые биочипы и протоколы, и, следовательно, данные могут быть объединены в пул. В настоящем исследовании данные обоих исследований комбинированы в обучающий набор из 78 пациентов и набор для проверки достоверности из 106. Заслуживает внимания то, что Van de Vijver и др. рассматривает пациентов как с отрицательным анализом лимфатических узлов (151), так и с положительным анализом лимфатических узлов (144). Группы пациентов в Van 't Veer и др. и Van de Vijver и др. перекрываются, поскольку когорта из 295 случаев содержит 61 из обучающих случаев, и 3 из случаев проверки достоверности также присутствуют в Van 't Veer и др. Чтобы получать гомогенную совокупность, рассматриваются только случаи отрицательного анализа лимфатических узлов. Исходный набор для проверки достоверности из 19 случаев расширен с помощью дополнительных 151-(61-1-3)=87 случаев. Это предоставляет больший набор для проверки достоверности, содержащий в сумме 19+87=106 случаев.

Фиг.3 иллюстрирует базовый процесс обучения классификатора и выполнения классификации с помощью обученного классификатора. На этапе 300 процесс инициируется. Блок 301 (который содержит этапы 302 и 304) указывает этапы, участвующие в обучении классификатора. Этап 306 иллюстрирует выполнение классификации с помощью обученного классификатора. На этапе 302 набор обучающих данных предоставляется следующим образом для обучения классификатора. Пусть Ig обозначает набор из ng пациентов, принадлежащих хорошему прогностическому классу, а IP обозначает набор из np пациентов, принадлежащих плохому прогностическому классу. Метка класса пациента i обозначается посредством Li. На этапе 304 средний хороший профиль xg и средний плохой профиль xp вычисляются. Обозначим с помощью xi вектор, содержащий уровни экспрессии пациента i. Средний хороший профиль xg и средний плохой профиль xp задаются следующим образом:

и .

Эти формулы, задающие xg и xp, используются на этапе 304, чтобы вычислять средний хороший профиль xg и средний плохой профиль xp.

Классификатором, приспосабливаемым Van 't Veer и др. и Van de Vijver и др., является классификатор на основе ближайшего среднего с использованием косинусоидальной корреляции в качестве показателя расстояния. Другие классификаторы и другие показатели расстояния также могут использоваться. Такой классификатор классифицирует пациента i как принадлежащего хорошему прогностическому классу, если расстояние xi до xg, обозначенное посредством d(xi,xg), меньше расстояния xi до xp, обозначенного посредством d(xi,xp). Из задания косинусоидального расстояния следует, что пациент i с экспрессионным вектором xi может быть классифицирован как имеющий хороший прогноз исключительно в том случае, если:

(1)

где задается следующее:

Следует отметить, что правило классификации уравнения 1 приводит к линейному классификатору. Тем не менее, классификатор, используемый в Van 't Veer и др., немного отличается, поскольку он смещается к меньшему числу ложноотрицательных суждений, что делает его более нелинейным. Такой нелинейный классификатор также может использоваться здесь. На этапе 306 новая выборка (не исходящая из набора обучающих данных) классифицируется согласно правилу классификации уравнения 1 (xiT xdif>0). Этап 306 может выполняться для выборки из набора данных для проверки достоверности. Он также может выполняться в ходе практического применения классификатора для классификации выборок, например, чтобы помогать в диагностике пациента.

Чтобы создавать классификатор на основе ближайшего среднего, вектор средних признаков может быть определен для каждого класса. Такой вектор средних признаков конкретного класса может получаться посредством усреднения набора векторов признаков, о которых известно, что они принадлежат данному конкретному классу. Чтобы использовать классификатор на основе ближайшего среднего для того, чтобы классифицировать вектор новых признаков, может вычисляться расстояние от вектора новых признаков до каждого из векторов средних признаков. Вектор новых признаков может быть классифицирован согласно классу вектора средних признаков, имеющего наименьшее расстояние от вектора новых признаков.

По нескольким причинам классификация, как описано выше, может осуществляться не для полного набора признаков, а для выбранного поднабора признаков (или генов). Для этого может использоваться процедура, которая содержит два этапа фильтрации признаков, этап ранжирования признаков и этап оценки классификации. В качестве примера, можно начинать с обучающего набора в 78 пациентов, по каждому из которых сообщены уровни экспрессии относительно 24481 генов.

Фиг.4 иллюстрирует процесс выбора соответствующего поднабора признаков. На этапе 400 процесс инициируется. Процесс продолжается следующим образом.

Этап 402. Выбор только тех признаков j, которые имеют, по меньшей мере, двукратное изменение (т.е. |xij|>log10(2)≈0,3) и P-значение (понятие P-значения подробнее поясняется в дальнейшем) меньше 0,01 для более чем 3 случаев. В примерном наборе данных или для 78 пациентов это может приводить к сокращенному набору в 4918 признаков.

Этап 404. Выбор тех признаков из выбранных на этапе 402 (4918 признаков в примере), которые имеют абсолютную корреляцию Пирсона с меткой класса, по меньшей мере, в 0,3. В примере это дополнительно уменьшает набор признаков до набора из 231 признака.

Этап 406. Ранжирование признаков, выбранных на этапе 404 (231 признака в примере) по абсолютному значению коэффициента корреляции Пирсона, от наибольшего к наименьшему.

Этап 408. Оценка классификатора на основе ближайшего среднего по отдельным объектам ("по отдельным объектам" - это технология, которая известна в данной области техники) с использованием лучших 5, лучших 10, лучших 15 и т.д. признаков, как ранжировано на этапе 406. Этот этап заключает в себе обучение и оценку классификаторов на основе выбранных поднаборов признаков с использованием процесса по фиг.3.

Этап 410. Выбор поднабора признаков, оцененных на этапе 408, который приводит к наименьшей полной частоте ошибок. Tn - это примерный набор данных, а именно, при 70 признаках.

В примерном наборе данных классификатор с использованием лучших 70 признаков корректно прогнозирует 65 из этих 78 меток классов. В процессе по фиг.4 этап 402 является единственным этапом, который включает в себя информацию шума при измерении.

Усложняющим фактором в получении количественной информации по экспрессии генов через биочипы является то, что предусмотрено большое число различных источников, которые могут возмущать измерение интенсивности. Помимо этого, погрешность измерения может быть зависимой от интенсивности, например, более высокие измерения интенсивности могут иметь тенденцию иметь более высокое измерение. Следует отметить, что множество статистических тестов неявно допускают, что погрешности измерения являются равными для каждого измерения. Данные с биочипов зачастую неожиданно не могут удовлетворять этому и другим общим статистическим допущениям.

Некоторые источники смещают измерения систематическим способом, и его направление является приблизительно прогнозируемым. Зачастую можно вводить поправку на эти систематические эффекты посредством применения набора надлежащих преобразований. Например, стратегии поправок на фон, нормализации и смены красителя могут быть созданы для того, чтобы вводить поправку на систематические эффекты.

Модели ошибок могут пытаться фиксировать случайные искажения, которые могут по-прежнему присутствовать после коррекции для систематических ошибок. Точное значение и направление этих ошибок, возможно, является непрогнозируемым, но изменчивость случайной ошибки может следовать определенным правилам, которые могут быть изучены. Модели ошибок могут конструироваться так, чтобы фиксировать прогнозируемый режим работы этой дисперсии. Гибридизации "себя в себя" часто выполняются для того, чтобы помогать в конструировании моделей ошибок. Это гибридизации, при которых идентичный источник мРНК гибридизируется в оба канала, т.е. отсутствует дифференциальная экспрессия, и все ненулевые логарифмические отношения являются эффектом шума.

Одной из моделей ошибок, которые созданы для данных измерений с помощью биочипов, является "Rosetta error model for gene expression analysis" авторов L. Weng и др., Bio informatics, 22 (9):1111, 2006 (в дальнейшем: Rosetta). Подробное рассмотрение данной модели выходит за рамки этого описания. Для каждого отдельного измерения интенсивности I(i,j) модель предоставляет оценку ее изменчивости σI(i,j). Как отмечено выше, если отдельные интенсивности каналов являются стохастическими, значения признаков xij также могут быть стохастическими. Средние квадратические отклонения отдельных интенсивностей каналов могут использоваться для того, чтобы аппроксимировать среднее квадратическое отклонение xij; см. статью Rosetta. После применения модели ошибок Rosetta каждое измерение может представляться как стохастическое значение с нормальным распределением со средним значением xij и средним квадратическим отклонением σij, где σij представляет моделируемую информацию шума по измерению xij.

При сравнении двух различных выборок следует быть внимательным, чтобы не придавать значения каждому ненулевому логарифмическому отношению разности в экспрессии генов между двумя выборками, поскольку некоторые разности могут быть обусловлены погрешностями измерения. Можно использовать σij, чтобы назначать каждому соотношению xij так называемое P-значение, pij. Это P-значение является индикатором относительно вероятности наблюдения значения для логарифмического отношения, более экстремального, чем xij, если истинное логарифмическое отношение составляет нуль, притом что погрешность измерения составляет σij. Таким образом, pij указывает то, значительно или нет отличается логарифмическое отношение от нуля, с учетом погрешности измерения.

Чтобы анализировать эффекты шума при измерении, должно быть предпочтительным иметь максимально подробную информацию относительно этого. К сожалению, эта информация не всегда является доступной или опубликованной. Например, в Van 't Veer и др. единственная опубликованная информация шума имеет форму P-значений. Поскольку модель ошибок известна, по-прежнему можно логически выводить разброс по логарифмическому отношению для большинства экземпляров, что касается стохастического значения с нормальным распределением Xij со средним нулевым и средним квадратическим отклонением σij, двустороннее P-значение задается посредством

В данном документе cdf - это интегральная функция распределения случайной переменной с распределением N(0,1). Следовательно, если xij и pij заданы, можно вычислять σij посредством следующего:

(2)

Хотя уравнение 2 может предоставлять значение σij для большинства пар xij и pij, в двух случаях нелегко выводить значение σij, используя уравнение 2:

- если pij равно 1, то знаменатель уравнения 2 является нулевым и, следовательно, результат деления в уравнении 2 является неопределенным, и

- если xij равно нулю, то уравнение 2 всегда дает в результате нуль независимо от значения pij.

В обоих случаях σij может консервативно задаваться равным нулю. Тем не менее, это не исключает другие решения. Кроме того, эффекты округления могут возникать в случаях, когда pij располагается близко к единице и/или σij располагается близко к нулю. В некоторых случаях это может приводить к тому, что σij является нереалистично высоким. Чтобы не допускать формирования таких значений, может применяться округление в большую сторону σmax до значения σij.

Вычисленная информация шума, фиксируемая посредством σij, может использоваться для того, чтобы формировать модифицированные уровни экспрессии из исходных данных. Чтобы возмущать данные экспрессии генов, некоторый гауссов шум со средним нулем и средним квадратическим отклонением σij добавляется к каждому измерению xij, при этом σij вычисляется посредством уравнения 2. Следует отметить, что для того чтобы формировать вектор новых признаков для пациента, неявно предположено, что ошибки являются независимыми и следуют нормальному распределению. Тем не менее, распределения ошибок различных признаков могут зависеть друг от друга. Эта зависимость может приниматься во внимание при формировании модифицированных уровней экспрессии, чтобы делать возмущения более реалистическими и делать конечные классификации более точными. Также следует отметить, что метки классов не изменяются, т.е. Limod=Li. Новые экспрессионные векторы могут формироваться через следующий путь:

, где (3)

σmax может использоваться для того, чтобы не допускать того, что возмущения могут становиться слишком большими. Например, каждая выборка может реплицироваться 1000 раз с использованием уравнения 3.

Следует отметить, что возмущения могут иметь наибольший эффект, если исходная выборка находится у границы между двумя различными классификациями. Следует отметить, что когда на некоторые или все отдельные случаи оказывает влияние шум, на средние значения внутри класса также может оказываться влияние. Когда это происходит, шум оказывает влияние на саму границу решений.

Фиг.5 иллюстрирует использование шума при измерении в отдельных признаках в процессе выбора признаков. На этапе 500 инициируется процесс выбора признаков. На этапе 502 гены имеют двукратное изменение и P-значение меньше 0,01, как на этапе 302, поясненном выше. На этапе 504 уравнение 3 используется для того, чтобы создавать, для каждой обучающей выборки i и признака j, большое число модифицированных экспрессионных векторов (например, 1000 модифицированных экспрессионных векторов, что дает в результате 1000 переменных обучающих наборов). Эти модифицированные экспрессионные векторы могут упоминаться как возмущенные реплики исходного измерения. На этапе 506 коэффициент корреляции Пирсона вычисляется для каждого признака (или гена) с (неизменными) метками классов. Для каждого гена (или признака) это дает распределение коэффициентов корреляции Пирсона. На этапе 508 признаки упорядочиваются по абсолютному значению средней корреляции Пирсона по всем репликам. Вместо использования средней корреляции Пирсона по всем репликам может использоваться другая статистика, например, с 25 процентилями. Шум может оказывать влияние на значение коэффициента корреляции для всех случаев. На этапе 510 поднабор признаков выбирается с использованием упорядоченных признаков этапа 508. Этап 510 является аналогичным этапам 408-410.

Использование шума от признаков на этапе выбора признаков, например использование процесса по фиг.5, предоставляет усовершенствованный выбор признаков. Косвенно этот усовершенствованный выбор признаков оказывает влияние на классификацию отдельных случаев, поскольку обычно выполнение классификации на основе различных признаков может приводить к различным результатам классификации. Тем не менее, после того как классификатор обучен, интересно видеть то, как шум от признаков новой выборки, которая должна быть классифицирована, может оказывать влияние на классификацию. Должно быть преимущественным использовать сведения погрешности измерения в ходе процесса классификации, поскольку это повышает точность (специфичность и/или чувствительность) классификации. Учет погрешности измерения в ходе классификации также может давать возможность предоставлять индикатор относительно достоверности результата классификации.

Эксперименты демонстрируют, что число отклоняющихся классификаций вследствие шумовых возмущений может быть выше, если используется небольшой набор признаков. Тем не менее, шум может оказывать некоторое влияние независимо от числа признаков, включенных в классификацию. Кроме того, в некоторых экспериментах влияние шума не уменьшается монотонно с числом признаков, включенных в классификацию. В некоторых случаях добавление дополнительных признаков помогает стабилизировать классификацию, но при определенном числе признаков на классификацию снова начинает оказываться большее влияние посредством шума.

Как пояснено выше, можно реплицировать векторы xi признаков случаев проверки достоверности при сохранении xdif фиксированным. Можно оценивать xdif из обучающих данных. Также можно демонстрировать эффект шума от признаков посредством возмущения обучающего набора и тем самым косвенного возмущения xdif при одновременном возможном поддержании фиксированного (невозмущенного) набора для проверки достоверности. Также можно возмущать как обучающие наборы данных, так и наборы данных для проверки достоверности. В данном документе наборы для проверки достоверности могут заменяться измеренными данными выборки, используемой, чтобы фактически тестировать выборку для практического применения (например, диагностики пациента). Отклоняющаяся классификация может быть результатом изменения границы решений. Эта граница решений, возможно, изменена вследствие возмущенных обучающих данных. Возмущение обучающих данных также повышает точность классификации, в частности, при использовании небольших наборов признаков.

Как пояснено в этом тексте, шум от признаков может оказывать влияние как на выбор, так и на классификацию признаков. Множество различных преобразований, требуемых для того, чтобы создавать значимые значения экспрессии, затрудняет аналитическое объединение информации шума. Возмущение уровней экспрессии через шумовые модели обходит эти проблемы. В этом тексте модель ошибок Rosetta использована для того, чтобы возмущать экспрессионные векторы. Хотя эта модель является достаточно обобщенной и может применяться к другим платформам с использованием биочипов, она ни в коем случае не является единственной существующей моделью ошибок. Существующие альтернативы также могут применяться.

Экспериментирование с использованием различных классификаторов раскрывает, что на другие классификаторы, такие как k-е ближайшие соседи, методы опорных векторов и случайные леса, также оказывает влияние шум от признаков. Специалисты в данной области техники должны принимать во внимание, что технологии, раскрытые в этом тексте (например, классификация с использованием возмущенных реплик), могут применяться к таким классификаторам.

Реплицированные данные могут использоваться в качестве средства для того, чтобы регулировать процедуры подгонки, например предотвращать сверхподгонку. Вместо обучения с помощью исходных данных можно добавлять множество реплицированных точек данных и обучать классификатор с использованием большего обучающего набора. Такая вставка шума может быть аналогичной регуляризации Тихонова. Например, способы локального поиска, ориентированные на нахождение небольших поднаборов признака, легко находят множество шаблонов при отсутствии ошибок в обучающих данных. Эти шаблоны, тем не менее, часто не проходят успешно проверку достоверности. Ожидается, что если шаблон соответствует данным исключительно случайно, небольшое возмущение уже разрушает результат классификации с небольшим числом ошибок. Если это так, модель ошибок, включающая в себя возмущенные реплики, может использоваться для того, чтобы отфильтровывать ложные шаблоны.

Следует принимать во внимание, что изобретение также применимо к компьютерным программам, в частности компьютерным программам на носителе, приспособленном для осуществления изобретения на практике. Программа может быть в форме исходного кода, объектного кода, кода, промежуточного между исходным и объектным кодом, к примеру, в частично компилированной форме или в любой другой форме, подходящей для использования при реализации способа согласно изобретению. Также следует принимать во внимание, что эта программа может иметь множество различных вариантов архитектурного проектирования. Например, программный код, реализующий функциональность способа или системы согласно изобретению, может быть подразделен на одну или более подпрограмм. Множество различных способов распределять функциональность между этими подпрограммами должно быть очевидным для специалистов в данной области техники. Подпрограммы могут быть сохранены совместно в одном исполняемом файле, чтобы формировать автономную программу. Такой исполняемый файл может содержать машиноисполняемые инструкции, например инструкции процессора и/или инструкции интерпретатора (например, инструкции Java-интерпретатора). Альтернативно, одна или более или все подпрограммы могут быть сохранены, по меньшей мере, в одном внешнем файле библиотеки и связаны с основной программой статически или динамически, например, во время выполнения. Основная программа содержит, по меньшей мере, один вызов, по меньшей мере, одной из подпрограмм. Кроме того, подпрограммы могут содержать вызовы функций друг к другу. Вариант осуществления, относящийся к компьютерному программному продукту, содержит машиноисполняемые инструкции, соответствующие каждому из этапов обработки, по меньшей мере, одного из изложенных способов. Эти инструкции могут быть подразделены на подпрограммы и/или сохранены в одном или более файлов, которые могут быть связаны статически или динамически. Другой вариант осуществления, относящийся к компьютерному программному продукту, содержит машиноисполняемые инструкции, соответствующие каждому из средств, по меньшей мере, одной из изложенных систем и/или продуктов. Эти инструкции могут быть подразделены на подпрограммы и/или сохранены в одном или более файлов, которые могут быть связаны статически или динамически.

Носителем компьютерной программы может быть любой объект или устройство, допускающее перенос программы. Например, носитель может включать в себя носитель хранения данных, такой как ROM, к примеру CD-ROM или полупроводниковое ROM, или магнитный носитель записи, к примеру гибкий диск или жесткий диск. Дополнительно, носителем может быть передающая среда, такая как электрический или оптический сигнал, который может передаваться через электрический или волоконно-оптический кабель, по радиосвязи или другому средству. Когда программа осуществлена в этом сигнале, носитель может состоять из такого кабеля либо другого устройства или средства. Альтернативно, носителем может быть интегральная схема, в которой осуществлена программа, причем интегральная схема выполнена с возможностью работы или использования при осуществлении соответствующего способа.

Следует отметить, что вышеуказанные варианты осуществления иллюстрируют, а не ограничивают изобретение и специалисты в данной области техники должны иметь возможность проектировать множество альтернативных вариантов осуществления без отступления от объема прилагаемой формулы изобретения. В формуле изобретения все номера ссылок, помещенные в круглые скобки, не должны рассматриваться как ограничивающие формулу изобретения. Использование глагола "содержит" и его спряжений не исключает наличия элементов или этапов, отличных от изложенных в формуле изобретения. Употребление слова "элемент" в единственном числе не исключает наличия множества таких элементов. Изобретение может быть осуществлено посредством аппаратных средств, содержащих несколько отдельных элементов, и посредством надлежащим образом запрограммированного компьютера. В устройстве, в котором пункт формулы изобретения перечисляет несколько средств, некоторые из этих средств могут быть осуществлены посредством идентичного элемента аппаратных средств. Простой факт того, что определенные меры упомянуты в различных зависимых пунктах формулы изобретения, не означает того, что комбинация этих мер не может быть использована с выгодой.

1. Система (100) классификации для классификации биомолекулярных данных, содержащая:
- вход для приема данных измерений, содержащих измерения множества численных признаков (102) выборки, которая должна быть классифицирована, и множества соответствующих оценок (104) ошибок соответствующих признаков из упомянутого множества численных признаков;
- статистический модуль (106) для ассоциирования соответствующих функций (108) плотности распределения вероятностей с соответствующими признаками из упомянутого множества численных признаков, при этом соответствующие функции плотности распределения вероятностей зависят от соответствующих оценок ошибок соответствующих численных признаков;
- модуль (110) репликации для формирования множества возмущенных реплик (112) выборки, причем упомянутые возмущенные реплики содержат возмущенные признаки, при этом соответствующие признаки из упомянутого множества численных признаков являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей, чтобы получать возмущенные признаки;
- классификатор (114) для классификации соответствующих реплик из упомянутого множества возмущенных реплик на основе возмущенных признаков и посредством применения заранее определенных критериев классификации, чтобы получать классифицированные реплики (116), при этом каждая классифицированная реплика имеет ассоциированный класс;
- анализатор (118) для классификации выборки, которая должна быть классифицирована, на основе статистического анализа множества классифицированных реплик (116), чтобы получать классификацию (120) выборок.

2. Система классификации по п.1, в которой анализатор выполнен с возможностью вычисления значения, указывающего на правдоподобность того, что выборка принадлежит конкретному классу.

3. Система классификации по п.2, в которой анализатор выполнен с возможностью вычисления множества значений правдоподобия, при этом каждое соответствующее значение правдоподобия указывает на правдоподобность того, что выборка принадлежит соответствующему конкретному классу.

4. Система классификации по п.1, в которой анализатор содержит средство для установления класса, ассоциированного с наибольшим числом возмущенных реплик, и средство для классификации выборки согласно классу, имеющему наибольшее число возмущенных реплик.

5. Система классификации по п.1, в которой соответствующие функции плотности распределения вероятностей являются соответствующими нормальными распределениями с соответствующими среднеквадратическими отклонениями на основе оценок ошибок и в которой модуль репликации содержит средство для формирования значения согласно одному из соответствующих нормальных распределений, чтобы получать возмущенный признак.

6. Система классификации по п.1, в которой классификатор содержит классификатор на основе ближайшего среднего.

7. Система классификации по п.1, в которой классификатор выполнен с возможностью применения соответствующих весовых коэффициентов к соответствующим признакам из множества численных признаков отдельных реплик на основе соответствующих оценок ошибок соответствующих численных признаков, при этом влияние численных признаков, имеющих большую оценку ошибки, уменьшается по сравнению с влиянием численных признаков, имеющих меньшую оценку ошибки.

8. Система классификации по п.1, в которой ввод выполнен с возможностью приема данных измерений, содержащих по меньшей мере одно из следующего:
- данные экспрессии генов, данные транскрипта ДНК и протеомические данные.

9. Система классификации по п.1, дополнительно содержащая модуль считывания образца для предоставления данных измерений во ввод.

10. Система классификации по п.1, дополнительно содержащая клиническую систему поддержки принятия решений, при этом клиническая система поддержки принятия решений выполнена с возможностью приема классификации выборок и предоставления диагностики на основе классификации выборок.

11. Система классификации по п.1, дополнительно содержащая:
- формирователь наборов обучающих данных для формирования набора обучающих данных, при этом формирователь наборов обучающих данных выполнен с возможностью включения множества реплик в набор обучающих данных; и
- обучающий модуль для обучения классификатора на наборе обучающих данных, чтобы получать обученный классификатор, подходящий для классификации новой выборки и/или реплик новой выборки.

12. Способ классификации биомолекулярных данных, содержащий этапы, на которых:
- принимают (202) данные измерений, содержащие измерения множества численных признаков (102) выборки, которая должна быть классифицирована, и множества соответствующих оценок (104) ошибок соответствующих признаков из упомянутого множества численных признаков;
- ассоциируют (204) соответствующие функции (108) плотности распределения вероятностей с соответствующими признаками из упомянутого множества численных признаков, при этом соответствующие функции плотности распределения вероятностей зависят от соответствующих оценок ошибок соответствующих численных признаков;
- формируют (206) множество возмущенных реплик (112) выборки, причем возмущенные реплики содержат возмущенные признаки, при этом соответствующие признаки из упомянутого множества численных признаков являются произвольно возмущенными согласно соответствующим надлежащим функциям плотности распределения вероятностей, чтобы получать возмущенные признаки;
- классифицируют (208) соответствующие реплики из упомянутого множества возмущенных реплик на основе возмущенных признаков и посредством применения заранее определенных критериев классификации, чтобы получать классифицированные реплики (116), при этом каждая классифицированная реплика имеет ассоциированный класс;
- классифицируют (210) выборку, которая должна быть классифицирована, на основе статистического анализа классифицированных реплик (116), чтобы получать классификацию (120) выборок.

13. Считываемый компьютером носитель, содержащий машиночитаемые инструкции, которые при исполнении их компьютером приводят к осуществлению упомянутым компьютером способа по п.12.



 

Похожие патенты:

Изобретение относится к вычислительной технике и может быть использовано в компьютерных системах для поиска и выявления изображений, авторские права на которые нарушены.

Изобретение относится к классификации данных изображения и, более конкретно, к классификации данных изображения на основе модели для адаптирования к объекту в данных изображения.

Способ маркирования и распознавания сигналов относится к области кодирования, распознавания и идентификации сигналов. Технический результат заключается в повышении достоверности распознавания сигналов при равенстве маркеров (интегральных значений сигнала на выделенном интервале) за счет более полного использования информации, характеризующей форму изменения сигнала в окрестности маркера.

Изобретение относится к области обработки данных для преобразования сигналов и изображений, задаваемых невзвешенными цифровыми кодами, во взвешенные коды и может быть использована для обработки и распознавания сигналов и изображений.

Изобретение относится к области видеоаутентификации пользователя. Техническим результатом является предотвращение фальсификации аутентификационной фотографии, выполняемой при помощи виртуальной камеры.

Изобретение относится к распознаванию образов, в котором принятое изображение отслеживается для выявления того, появляется ли в изображении узнаваемый образ. .

Изобретение относится к способам идентификации сигналов. .

Изобретение относится к области вычислительной техники, а именно к способам защиты информации от несанкционированного проникновения, и может быть использовано для защиты как мобильных, так и стационарных устройств с сенсорными дисплеями посредством идентификации пользователя, основанной на анализе его уникальной подписи.

Изобретение относится к электронным финансовым операциям. .

Изобретение относится к электронным финансовым операциям. .

Изобретение относится к области информационно-измерительной и вычислительной техники и предназначено для вычисления и индикации усредненной на 1-минутном интервале мощности потерь электроэнергии, а также может быть использовано в качестве счетчика-регистратора потерь электроэнергии за каждый час, сутки, месяц.

Изобретение относится к вычислительной технике и может быть использовано для оценки функционирования однотипных организаций с целью выработки рекомендаций по улучшению качества их работы.

Изобретение относится к вычислительной технике и может быть использовано для анализа взаимосвязи субъективных ответов респондента с его частотой сердечных сокращений (ЧСС) в процессе производимого тестирования, которая характеризует его психологическое состояние.

Изобретение относится к вычислительной технике, предназначено для определения закона распределения случайных величин и может быть использовано в системах цифровой обработки сигналов для классификации последовательности цифровых данных по заданным эталонным законам распределения.

Изобретение относится к области информационно-измерительной и вычислительной техники, предназначена для вычисления и индикации усредненной на 1-минутном интервале мощности потерь электроэнергии, а также может быть использована в качестве счетчиков потерь электроэнергии.

Изобретение относится к специализированным средствам вычислительной техники и может быть использовано в системах, в которых требуется аппаратная реализация алгоритмов оценки среднеквадратического отклонения дискретных сигналов, например, при оценке уровня шума и пороговом обнаружении.

Изобретение относится к судовождению и предназначено для оперативной идентификации математической модели судна в реальном масштабе времени. .

Изобретение относится к области создания навигационных приемников, а также средств автономного контроля навигационных сигналов спутниковых систем ГЛОНАСС, GPS и др.

Изобретение относится к сфере измерительной техники и системам тестирования технических устройств. .

Изобретение относится к специализированным средствам вычислительной техники и может быть использовано в системах, в которых требуется аппаратная реализация алгоритмов цифровой фильтрации сигналов, например, при оценке уровня нуля на фоне импульсных сигналов/помех или в условиях несимметричного относительно уровня нуля ограничения динамического диапазона.

Изобретение относится к области информационно-измерительной и вычислительной техники. Техническим результатом является расширение функциональных возможностей регистратора за счет возможности непрерывного контроля и регистрации усредненных значений потерь мощности, напряжения сети и тока нагрузки. Технический результат достигается благодаря тому, что регистратор содержит датчик тока, датчик напряжения сети, первый и второй входные преобразователи, микроконтроллер, датчик температуры окружающей среды, датчик температуры проводника, генератор прямоугольных импульсов, первый и второй компараторы, первый, второй и третий приемопередатчики, цифровой индикатор, постоянное запоминающее устройство, компьютер. 1 з.п. ф-лы, 2 ил.
Наверх