Способ и устройство для детектирования хромосомных структурных аномалий

Предложены способ и устройство для детектирования хромосомных структурных аномалий. Представленный способ включает сегментирование хромосомного образца от целевого индивидуума, то есть множество пар прочтений, расположенных с двух концов исследуемых хромосомных фрагментов; выравнивание результата секвенирования с референсной последовательностью для получения набора аномальных соответствий, причем набор аномальных соответствий включает пары прочтений, которые имеют две последовательности прочтений, соответствующие, соответственно, различным хромосомам референсной последовательности; кластеризацию последовательностей прочтений в наборе аномальных соответствий на основании соответствующих им положений; и фильтрацию получаемых в результате кластеров с использованием, например, заранее заданных требований, связанных с компактностью, и других требований; и получение отфильтрованных итоговых кластеров для определения наличия хромосомной структурной аномалии транслокационного типа. Изобретения позволяют получить результат секвенирования всего генома индивидуума. 2 н. и 9 з.п. ф-лы, 7 ил., 2 пр.

 

Область техники

Настоящее изобретение относится к области техники технологий геномики и биоинформатики и, более конкретно, к способу и устройству для детектирования хромосомных структурных аномалий.

Уровень техники

Обычно используемые в настоящее время способы исследования хромосом включают следующие.

Анализ кариотипа, например анализ кариотипа с помощью G-бэндинга, определяет хромосомные структурные аномалии на основании распределения 400-600 BAND, и таким образом обычно может детектировать аномалии только на хромосомном уровне. Данный способ может детектировать в лучшем случае делецию или повтор свыше 5 м.п.о., но не может детектировать меньшие фрагменты (<5 M). Кроме того, для данного способа необходима культура живых клеток, и требуется, чтобы клетки оставались живыми.

Флуоресцентная in situ гибридизация (FISH) может детектировать делецию, повтор и сбалансированную транслокацию гораздо меньших фрагментов. Однако требуется, чтобы подлежащий детектированию хромосомный фрагмент был заранее определен для приготовления соответствующего зонда. Как таковой, данный способ ограничен дизайном зонда. FISH часто используют для проверки результатов детектирования, поскольку он не способен детектировать неизвестные области.

Микроматричный метод включает два зондовых метода. Один построен на основании однонуклеотидных полиморфизмов (ОНП), а другой построен на основании CNV. Следовательно, данный способ страдает от тех же ограничений, что и FISH.

При постоянном развитии технологий секвенирования всего генома стоимость секвенирования постоянно снижается, так что может стать возможным обобщение секвенирования всего генома. Необходимо исследовать средства поиска хромосомных структурных аномалий, основанные на результатах секвенирования всего генома.

Сущность изобретения

В соответствии с аспектом настоящего изобретения предложен способ детектирования хромосомных структурных аномалий, содержащий: получение результата секвенирования всего генома целевого индивидуума, где результат секвенирования всего генома включает множество пар прочтений, причем каждая пара прочтений состоит из двух последовательностей прочтений, расположенных соответственно с двух концов исследуемого хромосомного фрагмента, и каждую пару прочтений получают отдельно от положительных и отрицательных нитей соответствующего хромосомного фрагмента или как от положительной, так и от отрицательной нити соответствующего хромосомного фрагмента; выравнивание результата секвенирования с референсной последовательностью для получения набора аномальных соответствий, где набор аномальных соответствий включает первый тип пар прочтений, описываемый тем, что две последовательности прочтений в первом типе пары прочтений соответствуют, соответственно, различным хромосомам референсной последовательности; кластеризацию последовательностей прочтений в наборе аномальных соответствий на основании соответствующих им положений, где каждый кластер содержит последовательности прочтений одного конца из группы пар прочтений, а соответствующие последовательности прочтений другого конца принадлежат к другому кластеру; фильтрацию получаемых в результате кластеров, включающую вычисление компактности каждого кластера и отфильтровывание кластеров, имеющих компактность, не удовлетворяющую заранее заданному требованию в отношении R-va, и кластеров, парных им, и получение отфильтрованных итоговых кластеров, содержащих первый тип пар прочтений, для определения наличия хромосомной структурной аномалии транслокационного типа.

В соответствии с другим аспектом настоящего изобретения предложено устройство для детектирования хромосомных структурных аномалий, которое содержит узел ввода данных, выполненный с возможностью ввода данных; узел вывода данных, выполненный с возможностью вывода данных; узел хранения, содержащий в себе выполняемую программу и выполненный с возможностью хранения данных; и процессор в информационном соединении с узлом ввода данных, узлом вывода данных и узлом хранения, выполненный с возможностью выполнения выполняемой программы, сохраненной в узле хранения, причем выполнение программы включает осуществление способа детектирования хромосомных структурных аномалий.

В соответствии с еще одним аспектом настоящего изобретения предложена машиночитаемая среда для хранения, которая выполнена с возможностью хранения программы, выполняемой компьютером. Средним специалистам в данной области техники должно быть понятно, что когда программа выполняется, все или некоторые из этапов способа детектирования хромосомных структурных аномалий могут быть выполнены под ее управлением соответствующим аппаратным обеспечением. Среда для хранения может включать память, доступную только для чтения, память с произвольным доступом, магнитный диск или оптический диск.

В соответствии со способом настоящего изобретения хромосомная структурная аномалия транслокационного типа может быть отобрана с помощью получения пары прочтений, соответствующих различным хромосомам, посредством выравнивания результата секвенирования всего генома с референсной последовательностью, и эффективность и надежность полученного результата дополнительно улучшаются кластеризацией и фильтрацией, благодаря чему получают результаты аналитической значимости.

Краткое описание чертежей

Изложенные выше и/или другие дополнительные аспекты и преимущества настоящего изобретения станут понятны и ясны из описания подробных вариантов осуществления в соединении с прилагаемыми чертежами, на которых:

фиг. 1 представляет собой схематический вид пары прочтений, полученной с помощью секвенирования парных концов в соответствии с вариантом осуществления настоящего изобретения;

фиг. 2 представляет собой схематический вид первого типа пар прочтений с аномальным соответствием в соответствии с вариантом осуществления настоящего изобретения;

фиг. 3 представляет собой схематический вид второго типа пар прочтений с аномальным соответствием в соответствии с вариантом осуществления настоящего изобретения;

фиг. 4 представляет собой схематический вид третьего типа пар прочтений с аномальным соответствием в соответствии с вариантом осуществления настоящего изобретения;

фиг. 5 представляет собой схематический вид пары кластеров, расположенных на различных хромосомах, в соответствии с вариантом осуществления настоящего изобретения;

фиг. 6 представляет собой схематический вид RPK для "FA" в экспериментальном примере 1 в соответствии с вариантом осуществления настоящего изобретения; и

фиг. 7 представляет собой схематический вид RPK для "SON" в экспериментальном примере 1 в соответствии с вариантом осуществления настоящего изобретения.

Подробное описание

В соответствии с вариантом осуществления настоящего изобретения предложен способ детектирования хромосомных структурных аномалий, который включает следующие этапы.

Этап 1. Получение результата секвенирования всего генома целевого индивидуума

Результат секвенирования включает парные прочтения, каждая пара прочтений состоит из двух последовательностей прочтений, расположенных соответственно с двух концов исследуемого хромосомного фрагмента, и каждую пару прочтений получают отдельно от положительных и отрицательных нитей соответствующего хромосомного фрагмента или как от положительной, так и от отрицательной нити соответствующего хромосомного фрагмента.

Исследуемый хромосомный фрагмент обычно получают посредством сегментирования хромосомного образца от целевого индивидуума и затем используют для получения соответствующей библиотеки в соответствии с выбранным методом секвенирования. Метод секвенирования может быть выбран в зависимости от платформы секвенирования, включая, но без ограничения, Complete Genomics (CG), Illumina/Solexa, ABI/SOLiD и Roche 454, и получение библиотеки секвенирования одиночных концов или парных концов осуществляют в соответствии с выбранной платформой секвенирования. В соответствии с конкретным вариантом осуществления настоящего изобретения может быть осуществлено секвенирование парных концов. Две последовательности прочтений Read1 и Read2 в каждой полученной паре прочтений получают отдельно от положительной нити Sp и отрицательной нити Sm соответствующего хромосомного фрагмента, как показано на фиг. 1. Длина Read1 L-r1 может совпадать или отличаться от длины Read2 L-r2. Безусловно, когда использование метода секвенирования одиночных концов позволяет полностью получить последовательность всего хромосомного фрагмента, может быть возможно сегментировать подходящую длину последовательности соответственно с двух концов полностью полученной последовательности для образования пары прочтений. В этом случае обе последовательности прочтений в каждой паре прочтений получают от положительной или отрицательной нити соответствующего хромосомного фрагмента. В данном варианте осуществления нет ограничений на конкретный выбранный метод секвенирования.

В настоящем изобретении размер библиотеки, используемой для секвенирования, обозначают как L-lib, и обычно библиотеку с L-lib от 100 до 1000 п.о. называют библиотекой коротких фрагментов, а библиотеку с L-lib 2 т.п.о., 5-6 т.п.о., 10 т.п.о., 20 т.п.о. и 40 т.п.о. называют библиотекой длинных фрагментов. В настоящем изобретении размер L-lib не ограничен. Однако при обеспечении конструкционного качества библиотеки обычно в получение приемлемого результата вносит вклад более длинная библиотека. Поэтому, предпочтительно, L-lib ≥ 300 п.о. Обычно можно использовать библиотеку длинных фрагментов, например 5 т.п.о., или библиотеку коротких фрагментов, например 500 п.о. Для обеспечения большого количества результата секвенирования глубина секвенирования может быть выбрана выше 2X для библиотеки длинных фрагментов и выше 5X для библиотеки коротких фрагментов. Для того чтобы избежать потери данных, глубина секвенирования составляет, предпочтительно, 2X для библиотеки длинных фрагментов и 5X для библиотеки коротких фрагментов. Следует отметить, что поскольку большая часть конкретных данных, используемых в настоящем изобретении, статистически значимы, любое численное значение, которое точно выражено, представляет диапазон, то есть интервал в пределах ±10% численного значения, если отдельно не оговорено иное. Это указание далее в данном документе не повторяется.

L-r1 и L-r2, предпочтительно, больше или равны 25 п.о., поскольку, когда L-r1 и L-r2 меньше 25 п.о., уровень единичного выравнивания снижается, так что растет сложность последующего получения результатов выравнивания. L-r1 и L-r2 не должны быть слишком большими, для того чтобы избежать потери данных. Поэтому L-r1 и L-r2 составляют, предпочтительно, 50 п.о. L-r1 и L-r2 не имеют ограничений по максимальному значению и могут быть изменены при развитии технологии секвенирования. Например, L-r1 и L-r2 обычно не больше чем 150 п.о. при существующих технологиях секвенирования.

Этап 2. Выравнивание результата секвенирования с референсной последовательностью

Используемая референсная последовательность представляет собой известную последовательность и может представлять собой любой референсный шаблон, ранее полученный от категории, к которой принадлежит целевой индивидуум. Например, если целевой индивидуум является человеком, референсная последовательность может представлять собой HG19, предоставляемую национальным центром биотехнологической информации (NCBI). Кроме того, может быть заранее сконфигурирован репозиторий ресурсов, содержащий больше референсных последовательностей, и более подходящую референсную последовательность до выравнивания последовательностей выбирают на основании пола, расы, географической области и других признаков целевого индивидуума, для того чтобы получить более точный результат детектирования. Во время выравнивания в соответствии с установленными параметрами выравнивания паре прочтений позволяют иметь самое большее n несоответствий, где n составляет, предпочтительно, 1 или 2. Если в паре прочтений имеется больше несоответствий, чем n, считают, что пара прочтений не может быть выровнена с референсной последовательностью, или, если все несоответствующие n оснований расположены в одной из пар прочтений, считают, что последовательность прочтения в паре прочтений не может быть выровнена с референсной последовательностью. При этом во время выравнивания можно использовать различное программное обеспечение для выравнивания, например Short Oligonucleotide Analysis Package (SOAP), bwa и samtools и так далее. В данном варианте осуществления это не ограничено.

В зависимости от выравнивания пар прочтений могут быть получены следующие категории.

(I) Набор нормальных соответствий *.pair включает пары прочтений, описываемые тем, что две последовательности прочтений Read1 и Read2 в паре прочтений соответствуют одной и той же хромосоме референсной последовательности, отношение положительных и отрицательных нитей соответствующих им положений согласуется с этим отношением в паре прочтений, и длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, отклоняется от L-lib на величину, меньшую заранее заданного порога V-lib. V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib. Порог устанавливают эмпирически на основании стандартного отклонения библиотечного размера. Эмпирически, стандартное отклонение библиотеки коротких фрагментов составляет приблизительно 15 п.о., а стандартное отклонение библиотеки длинных фрагментов составляет приблизительно 50 п.о. Отклонение L-pr от L-lib в диапазоне от 3-кратного стандартного отклонения считают подходящим, например считают, что L-pr может находиться в диапазоне 455-545 п.о. для библиотеки в 500 п.о.

На основании *.pair может быть получено количественное распределение пар прочтений в соответствии с соответствующим им положением, например может быть статистически вычислено число прочтений на единицу длины (RPU). Соответствующая единица длины может быть установлена в соответствии с L-lib, например установлена в 1,5-4 раза больше L-lib. Если L-lib равно 500 п.о., может быть установлена единица длины 1 т.п.о., и в этом случае RPU может быть обозначено как RPK. Вариация RPU по сравнению со средним значением, например то, выше ли вариация заранее заданного порога V-rm, может помогать в определении наличия структурных аномалий, тем самым повышая аналитическую точность результата. Предпочтительно, V-rm составляет 10-30% и, более предпочтительно, 20%. Кроме того, среднее RPU может быть получено посредством статистического вычисления или оценки. Например, среднее RPU можно оценить по формуле: глубина секвенирования × (единица длины/L-lib). Если RPU не требуется, *.pair получать не нужно.

(II) Набор аномальных соответствий *.sin включает три типа прочтений в соответствии с описаниями ниже.

В первом типе две последовательности прочтений в паре прочтений соответственно соответствуют различным хромосомам референсной последовательности. Этот тип пар прочтений коррелирует со структурной аномалией транслокационного типа, например сбалансированной и несбалансированной транслокацией. Фиг. 2 показывает ситуацию сбалансированной транслокации, в которой Read1 в паре прочтений соответствует хромосоме chra, и Read2 соответствует хромосоме chrb, а для другой пары прочтений ситуация противоположна. На фиг. 2 пунктирная линия, соединяющая Read1 и Read2, показывает отношение положения голова к хвосту Read1 и Read2 в хромосомном фрагменте (то же самое ниже), и pa и pb обозначают соответственно потенциальные положения граничных точек, где "граничная точка" означает точку границы местоположения структурной аномалии на хромосоме.

Во втором типе две последовательности прочтений в паре прочтений соответствуют одной и той же хромосоме референсной последовательности, но L-pr является отрицательной. Этот тип пар прочтений коррелирует со структурной аномалией типа тандемного повтора. Как показано на фиг. 3, как Read1, так и Read2 в паре прочтений соответствуют хромосоме chra; однако отношение положения голова к хвосту соответствующих им положений противоположно этому отношению Read1 и Read2 в хромосомном фрагменте. На фиг. 3, pa1 и pa2 обозначают соответственно начальное и конечное положения потенциального повторяющегося фрагмента, L-sv обозначает длину данного повторяющегося фрагмента, и пунктирная линия в средней части chra обозначает пропущенную длину (то же самое ниже).

В третьем типе две последовательности прочтений в паре прочтений соответствуют одной и той же хромосоме референсной последовательности; однако L-pr больше, чем L-lib, и отклонение выше заранее заданного порога V-lib. Этот тип пар прочтений коррелирует со структурной аномалией делеционного типа. Как показано на фиг. 4, как Read1, так и Read2 в паре прочтений соответствуют хромосоме chra, и отношение положения голова к хвосту соответствующих им положений является тем же, что и у Read1 и Read2 в хромосомном фрагменте, но расстояние выходит за пределы подходящего диапазона. На фиг. 4 pa1 и pa2 обозначают соответственно начальное и конечное положения потенциального удаленного фрагмента, и L-sv обозначает длину данного удаленного фрагмента.

Поскольку различные типы пар прочтений в наборе аномальных соответствий представляют соответственно различные типы хромосомных структурных аномалий, которые могут иметь место, может отсутствовать необходимость в получении всех пар прочтений с аномальным соответствием вышеуказанных типов, что определяется потребностями детектирования. Например, когда нужно детектировать только структурную аномалию транслокационного типа, из результата выравнивания может быть получен только первый тип пар прочтений. Кроме того, набор аномальных соответствий включает не только вышеуказанные три типа пар прочтений, и в набор аномальных соответствий включены пары прочтений или последовательность прочтения в парах прочтений, которые не принадлежат к набору нормальных соответствий и могут соответствовать референсной последовательности. Корреляция между проявлениями различных типов аномальных соответствий и соответствующими хромосомными структурными аномалиями, которые могут иметь место, может быть определена средними специалистами в данной области техники. Кроме того, из-за влияния потенциального шума и других помех в наборе аномальных соответствий может быть не обнаружено соответствие или несоответствие положительных и отрицательных нитей.

(III) Набор несоответствий *.unmap включает последовательности прочтений, которые не могут соответствовать референсной последовательности, и которые могут представлять собой последовательности парных прочтений (оба члена пары не могут соответствовать референсной последовательности) или представлять собой последовательности прочтений одного конца (последовательности прочтений другого конца могут соответствовать референсной последовательности).

Последовательности прочтений одного конца, существующие в *.unmap, затем используют для подгонки граничных точек после получения итоговых кластеров для получения более точного диапазона граничных точек. Если подгонка граничных точек не нужна, *.unmap получать не нужно.

Этап 3. Кластеризация последовательностей прочтений в *.sin на основании соответствующих им положений

Кластеризацию можно получить посредством использования различных алгоритмов кластеризации, которые в данном варианте осуществления не ограничены. Например, простой подход заключается в разбиении на кластеры на основании установленного минимального расстояния V-cl между кластерами. То есть ищут последовательности прочтений, ранжированные в соответствии с положениями. Начинают от первой последовательность прочтения, если расстояние между второй последовательностью прочтения и первой последовательностью прочтения меньше V-cl, то их помещают в один и тот же кластер. Затем поиск продолжают от второй последовательности прочтения до тех пор, пока расстояние между n-й последовательностью прочтения и (n-1)-й последовательностью прочтения не окажется больше, чем V-cl. Затем может быть выделен второй кластер, начиная от n-й последовательности прочтения, и процесс многократно осуществляют со всеми последовательностями прочтений. Во время кластеризации его можно осуществлять в соответствии с положением соответствующего прочтения на хромосоме, неважно на положительной или отрицательной нити.

После кластеризации каждый кластер содержит последовательности прочтений одного конца из группы пар прочтений, и соответственно последовательности прочтений другого конца расположены в другом кластере. Поэтому эти два кластера называют парой кластеров. Фиг. 5 представляет собой схематический вид пары кластеров, образованной кластером 1 и кластером 2, расположенными соответственно на различных хромосомах. Безусловно, парные кластеры могут быть расположены на одной и той же хромосоме. Для того, чтобы анализ после кластеризации был достоверным, каждый кластер, предпочтительно, включает больше двух прочтений. В случае, когда расстояние между отдельным прочтением и предыдущим и следующим прочтением больше, чем V-cl, упомянутый выпадающий случай может быть отброшен.

V-cl составляет по меньшей мере L-lib. Если установленное значение слишком низко, число кластеров-кандидатов слишком велико, и число последовательностей прочтений в кластере слишком мало, что затрудняет последующий отбор и фильтрацию, а также может приводить к повышенному числу ложноположительных результатов. Если установленное значение слишком высоко, определение граничных точек может быть затруднительным, и диапазон граничных точек увеличивается. Поэтому V-cl составляет, предпочтительно, 10 т.п.о. В зависимости от различных используемых алгоритмов кластеризации V-cl может принимать различные конкретные значения. Например, V-cl может представлять собой расстояние между центрами тяжести двух соседних кластеров или расстояние между двумя ближайшими по положению прочтениями в двух соседних кластерах.

Этап 4. Фильтрация получаемых в результате кластеров

Фильтрация направлена на максимальное удаление различных потенциальных помех, например загрязнений образца, ошибок секвенирования, ошибок выравнивания и шума, так что результат может максимально отражать реальные хромосомные структурные аномалии. Поэтому условия фильтрации могут быть установлены в зависимости от фактических требований и типов потенциальных помех. В данном варианте осуществления, предпочтительно, предлагаются следующие средства фильтрации, которые могут быть при практическом применении использованы по отдельности или в комбинации из нескольких из них.

(I) На основании компактности кластеров - Вычисляют компактность каждого кластера, и кластеры, которые имеют компактность, не удовлетворяющую заранее заданному требованию в отношении R-va, и кластеры, парные им, отфильтровывают. Компактность каждого кластера может быть вычислена с применением различных доступных математических методов. Например, компактность может указываться дисперсией. Вычисляют дисперсию положения каждого прочтения в кластере до центра или центра тяжести кластера, и чем меньше дисперсия, тем выше будет компактность. Предпочтительно, во время вычисления компактности каждого кластера последовательности прочтений, расположенные с двух концов в диапазоне от 5 до 25% и, предпочтительно, 20% по длине кластера могут быть исключены для уменьшения влияния периферических данных на результат вычисления. Предпочтительно, R-va можно устанавливать как фиксированный порог, например требуется, чтобы дисперсия была ниже фиксированного порога. Или, иначе, R-va устанавливают как уровень исключения. Например, требуется, чтобы ранги дисперсий во всех кластерах находились в пределах заранее заданного нижнего интервала. Например, R-va устанавливают таким образом, что ранги дисперсий во всех кластерах находятся в пределах нижнего интервала 2%-10% и, предпочтительно, 5%.

Компактность кластера отражает стабильность распределения прочтений и показывает, сконцентрированы ли последовательности прочтений в небольшом интервале. Обычно реальная структурная вариация может быть поглощена большой величиной "шумов окружающей среды". Однако, влияние "шумов окружающей среды" на весь геном является по существу однородным и, таким образом, имеет, по-видимому, по существу равномерное распределение по всей последовательности (на которое, конечно, могут воздействовать, например, содержание GC (гуанина и цитозина) и так далее). В сайте, где имеет место реальная структурная вариация, последовательности прочтений в кластере имеют, по-видимому, по существу нормальное распределение. Поэтому компактность, например дисперсия, может хорошо отражать различие между кластерами.

(II) На основании линейной корреляции парных кластеров - Вычисляют линейную корреляцию двух парных кластеров, и парные кластеры, которые имеют линейную корреляцию, не удовлетворяющую заранее заданному требованию в отношении R-li, отфильтровывают. Линейная корреляция пары кластеров может быть вычислена посредством применения различных доступных математических методов. Например, вычисляют коэффициент корреляции двух кластеров, и чем выше коэффициент корреляции, тем будет выше линейная корреляция. Предпочтительно, R-li можно устанавливать как фиксированный порог, например требуется, чтобы коэффициент корреляции был выше фиксированного порога. Или, иначе, R-li устанавливают как уровень исключения. Например, требуется, чтобы ранги коэффициентов корреляции во всех кластерах находились в пределах заранее заданного верхнего интервала. Например, R-li устанавливают таким образом, что ранги коэффициентов корреляции во всех кластерах находятся в пределах верхнего интервала 2%-10% и, предпочтительно, 5%.

Линейная корреляция сильно выделяет однородность распределения последовательностей прочтений в парных кластерах, то есть показывает, имеют ли последовательности прочтений двух концов в парных прочтениях по существу однородное распределение. Поэтому линейная корреляция может лучше отражать распределение в парных кластерах.

В предпочтительном варианте осуществления хороший результат достигается посредством фильтрации кластеров-кандидатов с использованием компактности, например дисперсии кластеров и линейной корреляции кластеров в комбинации.

(III) На основании контрольного набора нормальных образцов - Парные кластеры выравнивают с контрольным набором, содержащим множество нормальных образцов, и парные кластеры, которые имеют число попаданий нормальных образцов, достигающее заранее заданного порога V-con, отфильтровывают. Нормальными образцами называют набор итоговых кластеров, полученный посредством подвергания других нормальных индивидуумов, которые принадлежат к той же категории, что и целевой индивидуум, процессам "выравнивания-кластеризации-фильтрации", как описано выше. Для облегчения выравнивания все последовательности прочтений в кластере могут быть объединены в одну, и, таким образом, генерируют пару объединенных численных значений от парных кластеров (которая напоминает пару прочтений). Выравнивание осуществляют с парами объединенных численных значений. Посредством получения контрольного набора, содержащего большое число нормальных образцов, можно получить частоту встречаемости итоговых кластеров у нормальных индивидуумов. Если некоторый итоговый кластер имеет высокую частоту встречаемости, можно предположить, что данный итоговый кластер может быть обусловлен качеством образца, экспериментальным процессом, процессом секвенирования или шумом окружающей среды и не указывает на то, что образец действительно подвергается такой структурной вариации как таковой. Такой итоговый кластер представляет собой совместный ложноположительный результат, полученный из-за анализа различных образцов одним и тем же способом, и должен быть удален. Поэтому вероятность ложноположительных событий может быть дополнительно снижена посредством фильтрации итоговых кластеров с применением контрольного набора, что вносит вклад в получение правильного результата анализа структурной вариации. V-con можно определять в зависимости от способов создания и признаков нормальных образцов. Например, отношение V-con к числу нормальных образцов в контрольном наборе может составлять 3-10% и, предпочтительно, 5-6%. Например, если контрольный набор содержит 90 нормальных образцов, считают, что 5 попаданий достигают порога.

(IV) На основании других вспомогательных параметров - Вспомогательные параметры включают различные параметры, помогающие при дальнейшем подтверждении и различении типов структурных аномалий или при понимании деталей структурных аномалий, например число несоответствий, генерируемых во время выравнивания, число пар прочтений, обеспечивающих кластеры, значение RPU соответствующей области, полученное на основании *.pair, то, расположены ли кластеры в области N, и другие. Вспомогательные параметры можно использовать двумя следующими способами. 1. Вспомогательные параметры используют в качестве условий фильтрации. Требования к фильтрации, связанные со вспомогательными параметрами, устанавливают на отфильтровывание кластеров, прямо не удовлетворяющих требованиям. 2. Вспомогательные параметры используют в качестве опорного принципа для помощи при определении. С итоговыми кластерами предоставляют вспомогательные параметры, и затем проводят определение посредством осуществляемого вручную анализа. Поэтому содержание данного раздела можно использовать на этапе 4 (для фильтрации) или на этапе 5 (для помощи в осуществляемом вручную анализе). В данном варианте осуществления конкретные способы использования вспомогательных параметров не ограничены. Некоторые вспомогательные параметры и их связь с анализом результатов проиллюстрированы ниже. При практическом применении вспомогательные параметры могут быть установлены в качестве условий фильтрации в соответствии с указаниями, приведенными ниже, или в качестве основы для помощи при определении посредством осуществляемого вручную анализа. Различные вспомогательные параметры можно использовать в комбинации или по отдельности.

(1) Число несоответствий. - Среднее число несоответствий пар прочтений в парных кластерах составляет обычно не более 1 или 2, то есть каждая пара прочтений может иметь 1 или 2 несоответствия и, предпочтительно, не более 1 несоответствия. Данный параметр не следует принимать во внимание, если на его основании установлено требование соответствия при выравнивании. Если условия на выравнивание менее строгие, например установлено, что могут иметь место 2 несоответствия, дополнительно могут быть проведены фильтрация или определение с использованием данного параметра во время получения итогового кластера, например устанавливают, что может иметь место в среднем 1 несоответствие.

(2) Число пар прочтений, обеспечивающих кластеры, то есть число пар прочтений, содержащихся в парных кластерах - В принципе, лучше, чтобы этот параметр был больше. Обычно начальный уровень для определения может быть установлен соответствующим или слегка меньшим (например, принимающим целое значение), чем нормализованное значение глубины секвенирования, где нормализованное значение глубины секвенирования=глубина секвенирования × (диапазон влияния L-lib на граничные точки/L-lib) × (средние размеры двух концов парных кластеров/L-lib). "Диапазон влияния L-lib на граничные точки" обычно выше, чем "сумма размеров двух концов парных кластеров", и обычно колеблется вокруг среднего, которое в 2 раза превосходит L-lib, например колеблется между 1-4 L-lib. В конкретных условиях диапазон данного параметра может быть соответствующим образом расширен или сужен в зависимости от требований практической ситуации.

(3) Значение RPU соответствующей области, полученное на основании *.pair - Различные типы структурных аномалий обычно оказывают различное влияние на RPU. Например, в случае сбалансированной транслокации RPU с двух боковых сторон граничных точек значительно не изменяется; однако, в случае структурной аномалии типа делеции или повтора RPU области между граничными точками значительно уменьшается или увеличивается. Поэтому значение RPU соответствующей области можно затем использовать для подтверждения или облегчения определения наличия хромосомных структурных аномалий.

Например, для кластеров, содержащих первый тип пар прочтений, если в соответствии с отношением между парами прочтений в кластерах определена сбалансированная транслокация (смотри для подробностей раздел I этапа 5 ниже), вариация RPU с двух боковых сторон граничных точек от среднего не выше V-rm; а если в соответствии с отношением между парами прочтений в кластерах определена несбалансированная транслокация (смотри для подробностей раздел I этапа 5 ниже), RPU сбоку от граничных точек, получаемое от итоговых кластеров, ниже среднего, и вариация выше V-rm.

Для кластеров, содержащих второй тип пар прочтений, RPU области между граничными точками выше среднего, и вариация выше V-rm.

Для кластеров, содержащих третий тип пар прочтений, RPU области между граничными точками ниже среднего, и вариация выше V-rm.

При использовании RPU для помощи при определении посредством осуществляемого вручную анализа RPU соответствующей области может быть представлено в форме графика, таблицы или в другой легко идентифицируемой форме. Альтернативно, вариацию RPU во всей области представляют в форме графика, таблицы или тому подобного для облегчения понимания оператором общих условий.

(4) Расположен ли кластер в области N - Эмпирически, выравнивание прочтений поблизости от области N (содержащей участки центромеры и теломеры) является более сложным, чем в других областях. Если полученные кластеры не расположены в области N, считается, что определение может быть осуществлено в соответствии с полученной информацией. Если полученные кластеры расположены в области N, может потребоваться более тщательная проверка. Например, окончательное определение осуществляют с помощью совместного использования условий фильтрации и вспомогательных параметров или с учетом других внешних данных, например фенотипа целевого индивидуума и/или результата более точного секвенирования (например, секвенирования по Сенгеру) граничных точек.

Этап 5. Анализ данных отфильтрованных итоговых кластеров

Наличие итоговых кластеров, полученных после фильтрации, отражает потенциальное наличие соответствующих типов хромосомных структурных аномалий. Поэтому, если требуется обнаружить только потенциальные структурные аномалии, данный этап не является необходимым. Для цели получения более подробной информации в отношении структурных аномалий полученные итоговые кластеры могут быть дополнительно подвергнуты анализу данных. В зависимости от различных типов итоговых кластеров могут быть использованы следующие способы анализа.

(I) Хромосомная структурная аномалия транслокационного типа (первый тип прочтений)

Если осуществляют поиск итоговых кластеров, содержащих первый тип пар прочтений, и если две соседние последовательности прочтений имеют противоположные положения в соответствующих парах прочтений, диапазон между положениями, которым соответствуют эти две последовательности прочтений, принимают в качестве диапазона граничных точек. Данная ситуация обычно коррелирует со сбалансированной транслокацией, при которой последовательности прочтений в одном кластере распределены с двух боковых сторон от граничных точек.

Если такие последовательности прочтений не существуют, получают положение самой внутренней последовательности прочтения, и диапазон, полученный посредством распространения внутрь от данного положения на заранее заданную длину, принимают в качестве диапазона граничных точек. Термин самая внутренняя последовательность прочтения означает, что если кластер включает исключительно последовательности прочтений левого конца, самая правая последовательность прочтения является самой внутренней последовательностью прочтения; а если кластер включает исключительно последовательности прочтений правого конца, самая левая последовательность прочтения является самой внутренней последовательностью прочтения. Эта ситуация обычно коррелирует с несбалансированной транслокацией, при которой последовательности прочтений в одном кластере распределены с одной боковой стороны от граничных точек. Ширина распространения диапазона граничных точек от самой внутренней последовательность прочтения может быть определена исходя из L-lib, L-r1/L-r2, глубины секвенирования и так далее, и может, например, составлять 0,5-2 L-lib и обычно не более чем 2 L-lib.

Фиг. 2 показывает ситуацию сбалансированной транслокации. Полученная пара итоговых кластеров (только две последовательности прочтений изображены в каждом кластере, а другие считают опущенными) имеет распределение, показанное на фиг. 2, один итоговый кластер расположен поблизости от положения pa на хромосоме chra, а парный ему итоговый кластер расположен поблизости от положения pb на хромосоме chrb. Поскольку в кластере на chra Read1 является последовательностью прочтения левого конца хромосомного фрагмента, от которого она получена, а соседняя Read2 является последовательностью прочтения правого конца хромосомного фрагмента, от которого она получена, полагают, что граничная точка pa на chra расположена между Read1 и Read2, и тот же анализ применяют к chrb.

На основании приведенного выше анализа данных итоговый вывод данных для потенциальной структурной аномалии транслокационного типа может включать нумерацию двух хромосом (на которых соответственно расположены итоговые кластеры), потенциально имеющих структурную аномалию транслокационного типа, положение диапазонов двух концов парных итоговых кластеров (положение диапазонов границ двух концов кластеров на двух хромосомах, откуда могут быть соответствующим образом получены размеры двух концов кластеров), диапазон граничных точек, полученный после анализа, и так далее. Также рядом могут быть выведены соответствующие параметры, генерируемые во время фильтрации, и другие вспомогательные параметры, например соответствующая компактность пары итоговых кластеров, степень линейной корреляции пары итоговых кластеров, число пар прочтений, обеспечивающих пару итоговых кластеров, и график и таблица, представляющие вариацию RPU с двух боковых сторон от граничных точек.

(II) Хромосомная структурная аномалия типа тандемного повтора (второй тип пар прочтений)

Если осуществляют поиск итоговых кластеров, содержащих второй тип пар прочтений, диапазон между двумя соответствующими им положениями, которые удалены на наибольшее расстояние в парных кластерах, принимают в качестве диапазона наличия повтора, и диапазон, полученный посредством соответствующего распространения наружу от данных двух положений на заранее заданную длину, то есть, например, на 0,5-2 L-lib, принимают в качестве диапазона граничных точек (начальной и конечной точек повторяющегося фрагмента).

Фиг. 3 показывает ситуацию тандемного повтора. Оба конца парных итоговых кластеров (только одна последовательность прочтения изображена в каждом кластере, а другие считают опущенными) находятся в пределах диапазона между начальной и конечной точками повторяющегося фрагмента, и поэтому считают, что начальная и конечная точки повторяющегося фрагмента расположены в диапазоне, распространяющемся наружу от последовательностей прочтений (где две последовательности прочтений не обязательно принадлежат к пара прочтений) в наиболее удаленном положении двух концов кластеров.

По сравнению со структурной аномалией транслокационного типа структурная аномалия типа повтора имеет по существу те же типы вывода итоговых данных, за исключением того, что нумерация хромосом с двух концов кластеров является одинаковой, и также могут быть выведены данные, указывающие на расчетную длину повторяющегося фрагмента.

(III) Хромосомная структурная аномалия делеционного типа (третий тип пар прочтений)

Если осуществляют поиск итоговых кластеров, содержащих третий тип пар прочтений, диапазон между двумя соответствующими им положениями, которые удалены на наименьшее расстояние в парных кластерах, принимают в качестве диапазона наличия делеции, и диапазон, полученный посредством соответствующего распространения внутрь от данных двух положений на заранее заданную длину, то есть, например на 0,5-2 L-lib, принимают в качестве диапазона граничных точек (начальной и конечной точек удаленного фрагмента).

Фиг. 4 показывает ситуацию делеции фрагмента. Оба конца парных итоговых кластеров (только одна последовательность прочтения изображена в каждом кластере, а другие считают опущенными) находятся вне диапазона между начальной и конечной точками удаленного фрагмента, и поэтому считают, что начальная и конечная точки удаленного фрагмента расположены в диапазоне, распространяющемся внутрь от последовательностей прочтений (где две последовательности прочтений не обязательно принадлежат к пара прочтений), которые наиболее близки к двум концам кластеров.

По сравнению со структурной аномалией типа повтора структурная аномалия делеционного типа имеет по существу те же типы вывода итоговых данных, за исключением того, что выводимые данные, указывающие на расчетную длину фрагмента между граничными точками, представляют длину удаленного фрагмента.

Этап 6. Подгонка граничных точек

Для дальнейшего уменьшения диапазона граничных точек может быть проведена подгонка граничных точек с использованием данных из *.unmap. Например, получают последовательности прочтений одного конца (которые могут соответствовать одному концу референсной последовательности и могут быть обозначены во время выравнивания как *.sin) в диапазоне, установленном вокруг определенного диапазона граничных точек (например, 0,5-2 L-lib), и последовательности парных им прочтений извлекают из *.unmap в качестве последовательностей для заполнения брешей. Все последовательности для заполнения брешей разрезают на N секций, и N составляет, предпочтительно, 2. Затем подпоследовательности, полученные после разрезания последовательностей для заполнения брешей, снова выравнивают с референсной последовательностью. Область граничных точек подгоняют в соответствии с результатом нормального соответствия.

При практическом применении рациональным будет установить значение N в соответствии с длиной Lr1/Lr2. Когда длина последовательности меньше 25 п.о., это вызывает значительное снижение уровня единичного выравнивания. Соответственно, при установлении значения N можно полагать, что длина разрезанной подпоследовательности должна быть не меньше или не слишком меньше 25 п.о.

После подгонки граничных точек диапазон граничных точек может быть эффективно уменьшен. Исходя из этого затем может быть создан зонд в соответствии с диапазоном положений, к которому принадлежат граничные точки, и точные положения граничных точек могут быть в итоге получены посредством другого точного секвенирования для осуществления дальнейшего исследования граничных точек, например секвенирования по Сенгеру. Если диапазон граничных точек не нужно уменьшать, этот этап может быть опущен.

Средним специалистам в данной области техники может быть понятно, что все или некоторые из этапов способов, предложенных выше в вариантах осуществления, могут быть выполнены соответствующим аппаратным обеспечением под управлением программы, которая может быть сохранена в машиночитаемой среде для хранения, включая память, доступную только для чтения, память с произвольным доступом, магнитный диск или оптический диск.

В соответствии с другим аспектом настоящего изобретения также предложено устройство для детектирования хромосомных структурных аномалий, которое включает узел ввода данных, выполненный с возможностью ввода данных; узел вывода данных, выполненный с возможностью вывода данных; узел хранения, выполненный с возможностью хранения данных и содержащий в себе выполняемую программу; и процессор в информационном соединении с узлом ввода данных, узлом вывода данных и узлом хранения, выполненный с возможностью выполнения выполняемой программы, сохраненной в узле хранения, причем выполнение программы включает осуществление всех или некоторых из этапов способов, предложенных выше в вариантах осуществления.

Далее в данном документе подробно описан результат выполнения конкретного способа детектирования в соответствии с настоящим изобретением в связи с конкретным целевым индивидуумом. В процессе детектирования конкретные использованные параметры устанавливают следующим образом.

1. L-lib составляет 500 п.о., и используют секвенирование PE50 (секвенирование парных концом, при котором L-r1 и L-r2 составляют примерно 50 п.о.).

2. В качестве референсной последовательности используют HG19 от NCBI, и результат секвенирования выравнивают с помощью программного обеспечения SOAP.

3. V-lib составляет ±45 п.о., V-rm RPK составляет 20%, V-cl составляет 10 т.п.о. (расстояние между кластерами определяют как расстояние между двумя наиболее близкими последовательностями прочтений), минимальное число прочтений в кластере составляет 2, R-va устанавливают таким образом, что ранги дисперсий во всех кластерах находятся в пределах нижнего интервала 5% (при вычислении дисперсии последовательности прочтений, расположенные с двух концов в диапазоне 20% по длине кластера, исключают), R-li устанавливают таким образом, что ранги коэффициентов корреляции во всех кластерах находятся в пределах верхнего интервала 5%, контрольный набор включает 90 нормальных образцов, и V-con составляет 5.

Экспериментальный пример I

В данном примере приведено исследование на семье с синдромом кошачьего крика. В данном примере два целевых индивидуума принадлежат одной семье, причем "FA" представляет отца, а "SON" представляет сына.

1. Проводили полное секвенирование генома соответственно у двух целевых индивидуумов с низким множителем, при котором глубина секвенирования для "FA" составляла 2,2 и для "SON" 3,1.

2. Затем результаты секвенирования двух целевых индивидуумов выравнивали соответственно с референсной последовательностью HG19 с применением программного обеспечения для выравнивания SOAP для получения двух файлов FA.sin и SON.sin.

3. Эти два файла FA.sin и SON.sin подвергали кластеризации, фильтрации и анализу для получения следующих итоговых кластеров и соответствующих выходных параметров:

"FA":

номера двух хромосом, на которых расположены парные итоговые кластеры: chr12, chr5

диапазоны положений двух концов парных итоговых кластеров: 14779615-14780233, 23314785-23314205

размеры двух концов парных итоговых кластеров: 618, 580

число пар прочтений, обеспечивающих пару итоговых кластеров: 5

компактность (дисперсия) левого и правого концов: 90,59, 87,01

расположены ли кластеры в области N: нет

диапазон граничных точек: chr12:14779968-14780233, chr5:23314205-23314455

вариация RPK соответствующих областей на хромосомах - На фиг. 6 горизонтальная ось представляет положение (единица: 10 т.п.о.) на хромосоме, и продольная ось представляет RPK. Кривая построена на основании данных из FA.pair, и pa и pb представляют положения граничных точек. На фиг. 6 можно видеть, что вариация RPK у "FA" незначительна.

"SON":

номера двух хромосом, на которых расположены парные итоговые кластеры принадлежат: chr12, chr5

диапазоны положений двух концов парных итоговых кластеров: 14779618-14779968, 23314455-23314830

размеры двух концов парных итоговых кластеров: 350, 375

число пар прочтений, обеспечивающих пару итоговых кластеров: 6

компактность (дисперсия) левого и правого концов: 22,43, 18,44

расположены ли кластеры в области N: нет

диапазон граничных точек: chr12: выше 14779968, chr5: ниже 23314455

вариация RPK соответствующих областей на хромосоме - на фиг. 7 горизонтальная ось представляет положение (единица: 10 т.п.о.) на хромосоме, и продольная ось представляет RPK. Кривая построена на основании данных из SON.pair, и pa и pb представляют положения граничных точек. На фиг. 7 можно видеть, что вариация RPK у "SON" очевидна. Из рассмотрения вычисленного RPK может быть известно, что RPK в плече хромосомы 5 у SON составляет только 0,5 от среднего, и RPK в плече хромосомы 12 в 0,5 раза выше, чем среднее.

Из результатов анализа может быть без сомнения определено, что у "FA" имеет место сбалансированная транслокация, и у "SON" имеет место несбалансированная транслокация. Диапазон граничных точек, проанализированный по результату "FA", находится в пределах 300 п.о. Для осуществления дальнейшего исследования положений граничных точек соответствующую последовательность удаляют из референсной последовательности HG19, и разрабатывают праймер для секвенирования по Сенгеру и проверки посредством кПЦР. В итоге получают точные положения граничных точек Chr12:14780019, Chr5:23314435.

Экспериментальный пример II

В данном примере приведено исследование на врожденном заболевании сердца. В данном примере целевой индивидуум является пациентом с врожденным заболеванием сердца и обозначается как "XX".

1. Проводили полное секвенирование генома у целевого индивидуума с низким множителем, при котором глубина секвенирования составляла 2,7.

2. Затем результат секвенирования выравнивали с референсной последовательностью HG19 с применением программного обеспечения для выравнивания SOAP для получения XX.sin.

3. XX.sin подвергали кластеризации, фильтрации и анализу для получения следующих итоговых кластеров и соответствующих выходных параметров:

"XX":

номера двух хромосом, на которых расположены парные итоговые кластеры: chr14, chr14

диапазоны положений двух концов парных итоговых кластеров: 73557040-73557288, 73670432-73670682

расчетная длина повторяющегося фрагмента: 113392

размеры двух концов парных итоговых кластеров: 248, 250

число пар прочтений, обеспечивающих пару итоговых кластеров: 4

компактность (дисперсия) левого и правого концов: 100,63, 100,59

расположены ли кластеры в области N: нет

диапазон граничных точек: chr14: 73556540-73557040, chr14: 73670682-73671182 (где ширина диапазона определяют исходя из 1 L-lib, то есть 500 п.о.).

Из результата анализа может быть без сомнения определено, что повтор приблизительно из 113 т.п.о. по длине имеет место у "XX" в хромосоме 14, и повтор имеет место в тандеме. Для осуществления дальнейшего исследования положений граничных точек соответствующую последовательность удаляют из референсной последовательности HG19, и разрабатывают праймер для секвенирования по Сенгеру и проверки посредством кПЦР. Коэффициент умножения кПЦР больше 1, что подтверждает повтор. В итоге из секвенирования по Сенгеру получают точные положения граничных точек Chr14: 73557008, Chr14: 73670820, что подтверждает, что в хромосоме 14 у "XX" имеет место повтор в 113812 п.о., и повторяющийся фрагмент вставлен в конце фрагмента в тандеме.

Предшествующее описание представляет собой только предпочтительные варианты осуществления настоящего изобретения, и следует понимать, что данные варианты осуществления предложены для понимания, а не для ограничения настоящего изобретения. Средними специалистами в данной области техники могут быть осуществлены изменения конкретных приведенных выше вариантов осуществления в соответствии с идеей настоящего изобретения.

1. Способ детектирования хромосомных структурных аномалий, включающий:

получение хромосомных фрагментов посредством сегментирования хромосомного образца от целевого индивидуума или целевых индивидуумов и получение соответствующей библиотеки или библиотек соответственно;

проведение секвенирования всего генома на соответствующей библиотеке или библиотеках;

получение результата секвенирования всего генома целевого индивидуума или целевых индивидуумов посредством секвенирования всего генома, причем результат секвенирования включает множество пар прочтений, каждая пара прочтений состоит из двух последовательностей прочтений, расположенных соответственно с двух концов исследуемого хромосомного фрагмента, и каждую пару прочтений получают отдельно от положительных и отрицательных нитей соответствующего хромосомного фрагмента или как от положительной, так и от отрицательной нити соответствующего хромосомного фрагмента;

выравнивание результата секвенирования с референсной последовательностью для получения набора аномальных соответствий, причем набор аномальных соответствий включает первый тип пар прочтений, описываемый тем, что две последовательности прочтений в первом типе пары прочтений соответствуют, соответственно, различным хромосомам референсной последовательности; и/или набор аномальных соответствий дополнительно содержит второй тип пар прочтений, описываемый тем, что две последовательности прочтений в паре прочтений второго типа соответствуют одной и той же хромосоме референсной последовательности, но длина (L-pr) хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, является отрицательной; и/или набор аномальных соответствий дополнительно содержит третий тип пар прочтений, описываемый тем, что две последовательности прочтений в паре прочтений третьего типа соответствуют одной и той же хромосоме референсной последовательности, но длина (L-pr) хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, больше, чем библиотечный размер (L-lib), а отклонение выше заранее заданного порога (V-lib), причем V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib;

кластеризацию последовательностей прочтений в наборе аномальных соответствий на основании соответствующих им положений, причем каждый кластер содержит последовательности прочтений одного конца из группы пар прочтений, а соответствующие последовательности прочтений другого конца принадлежат к другому кластеру;

фильтрацию кластеров, получаемых из кластеризации, включающую вычисление компактности каждого кластера и отфильтровывание кластеров, имеющих компактность, не удовлетворяющую заранее заданному требованию компактности (R-va), и кластеров, парных им; и

получение отфильтрованных итоговых кластеров, содержащих первый тип пар прочтений, для определения наличия хромосомной структурной аномалии транслокационного типа; и/или отфильтрованных итоговых кластеров, содержащих второй тип пар прочтений, для определения наличия хромосомной структурной аномалии типа тандемного повтора; и/или отфильтрованных итоговых кластеров, содержащих третий тип пар прочтений, для определения наличия хромосомной структурной аномалии делеционного типа.

2. Способ по п. 1, в котором

фильтрация кластеров, получаемых из кластеризации, дополнительно содержит:

вычисление линейной корреляции двух парных кластеров и фильтрацию парных кластеров, которые имеют линейную корреляцию, не удовлетворяющую заранее заданному требованию линейной корреляции (R-li); и/или

выравнивание парных кластеров с заранее заданным контрольным набором, содержащим множество нормальных образцов, и фильтрацию парных кластеров, которые имеют число попаданий нормальных образцов, достигающее заранее заданного порога (V-con).

3. Способ по п. 1, дополнительно содержащий:

поиск итоговых кластеров, содержащих первый тип пар прочтений, если две соседние последовательности прочтений имеют противоположные положения в соответствующих парах прочтений, причем диапазон между положениями, которым соответствуют две последовательности прочтений, принимают в качестве диапазона граничных точек; и, если такие последовательности прочтений не существуют, получение положения самой внутренней последовательности прочтения и принятие диапазона, полученного посредством распространения внутрь от данного положения на заранее заданную длину, в качестве диапазона граничных точек.

4. Способ по п. 1, дополнительно содержащий:

поиск итоговых кластеров, содержащих второй тип пар прочтений, принятие диапазона между двумя соответствующими им положениями, которые удалены на наибольшее расстояние в парных кластерах, в качестве диапазона наличия повтора и принятие диапазона, полученного посредством соответствующего распространения наружу от данных двух положений на заранее заданную длину, в качестве диапазона граничных точек.

5. Способ по п. 1, дополнительно содержащий:

поиск итоговых кластеров, содержащих третий тип пар прочтений, принятие диапазона между двумя соответствующими им положениями, которые удалены на наименьшее расстояние в парных кластерах, в качестве диапазона наличия делеции, и принятие диапазона, полученного посредством соответствующего распространения внутрь от данных двух положений на заранее заданную длину, в качестве диапазона граничных точек.

6. Способ по любому из пп. 1-5, в котором

выравнивание результата секвенирования с референсной последовательностью дополнительно содержит:

получение набора нормальных соответствий, причем набор нормальных соответствий включает пары прочтений, описываемые тем, что две последовательности прочтений в паре прочтений соответствуют одной и той же хромосоме референсной последовательности, и отношение положительных и отрицательных нитей соответствующих им положений согласуется с этим отношением в паре прочтений, и длина L-pr хромосомного фрагмента, вычисленная в соответствии с соответствующими им положениями, отклоняется от библиотечного размера L-lib, использованного при секвенировании, на величину, меньшую заранее заданного порога V-lib, причем V-lib составляет, предпочтительно, от 5% × L-lib до 15% × L-lib и, более предпочтительно, 10% × L-lib; и

статистическое вычисление числа RPU прочтений в наборе нормальных соответствий на единицу длины и получение вариации RPU по сравнению со средним значением для облегчения определения наличия структурных аномалий, причем для вариации RPU по сравнению со средним значением указывают, предпочтительно, превосходит ли вариация RPU заранее заданный порог (V-rm), и V-rm составляет, предпочтительно, 10-30% и, более предпочтительно, 20%.

7. Способ по любому из пп. 1-5, в котором

выравнивание результата секвенирования с референсной последовательностью дополнительно содержит

получение набора несоответствий, который включает последовательности прочтений, которые не могут соответствовать референсной последовательности, и включает в себя последовательности парных несоответствующих прочтений или последовательности несоответствующих прочтений одного конца; и

после получения итоговых кластеров способ дополнительно содержит

получение последовательностей прочтений одного конца в диапазоне, установленном вокруг определенного диапазона граничных точек, извлечение парных им последовательностей прочтений из набора несоответствий в качестве последовательности для заполнения брешей, разрезание всех последовательностей для заполнения брешей на N секций, причем N составляет, предпочтительно, 2, выравнивание еще раз подпоследовательностей, полученных после разрезания последовательностей для заполнения брешей, с референсной последовательностью и подгонку области граничных точек в соответствии с результатом нормального соответствия.

8. Способ по любому из пп. 1-5, в котором

во время вычисления компактности каждого кластера 5-25% последовательностей прочтений, расположенных с двух концов кластера, исключают из вычисления; и/или

когда компактность указана с помощью дисперсии, R-va устанавливают таким образом, что ранги дисперсий во всех кластерах находятся в пределах нижнего интервала 2%-10% и, предпочтительно, 5%.

9. Способ по п. 2, в котором

во время вычисления линейной корреляции двух парных кластеров линейную корреляцию указывают с помощью коэффициента корреляции, и R-li устанавливают таким образом, что ранги коэффициентов корреляции во всех кластерах находятся в пределах верхнего интервала 2%-10% и, предпочтительно, 5%; и/или

отношение V-con к числу нормальных образцов в контрольном наборе составляет 3-10% и, предпочтительно, 5-6%.

10. Способ по п. 1, который предусматривает получение библиотеки, используемой при секвенировании, где

библиотечный размер (L-lib) больше или равен 300 п.о. и, предпочтительно, 500 п.о. или 5 т.п.о., и/или

длина последовательностей прочтений больше или равна 25 п.о. и, предпочтительно, находится в пределах ± 10% от 50 п.о.

11. Устройство для детектирования хромосомных структурных аномалий при осуществлении способа по любому из пп. 1-10, содержащее:

узел секвенирования всего генома на соответствующей библиотеке или библиотеках;

узел ввода данных, выполненный с возможностью ввода данных;

узел вывода данных, выполненный с возможностью вывода данных;

узел хранения, выполненный с возможностью хранения данных и содержащий выполняемую программу; и

процессор в информационном соединении с узлом секвенирования, узлом ввода данных, узлом вывода данных и узлом хранения и выполненный с возможностью выполнения программой осуществления способа по любому из пп. 1-10.



 

Похожие патенты:

Изобретение относится к области администрирования внешнего устройства. Техническим результатом является повышение надежности администрирования внешнего устройства посредством хост-устройства.

Изобретение относится к области статистического исследования больших массивов индивидуальных данных для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей.

Изобретение относится к биотехнологии. Описаны трансляторы на основе нуклеиновых кислот, способные осуществлять логические операции с улучшенной эффективностью, максимизированным выходом и сниженным побочным действием, в частности в биологической системе.

Группа изобретений относится к медицине, а именно к системе выбора и способу формирования данных выбора. Система выбора медицинских изображений для формирования данных выбора, содержащаяся на устройстве визуализации, и медицинская система обработки данных для выполнения последующего обследования пациента, содержащаяся на рабочей станции, содержат устройство и процессор для выполнения способа формирования данных выбора медицинских изображений, содержащего этапы, на которых: обеспечивают пользователю возможность устанавливать выбор одного или более медицинских изображений из множества медицинских изображений, содержащихся в системе архивации изображений, для установления одного или более медицинских изображений в качестве исходных изображений для использования при последующем обследовании пациента.

Изобретение относится к способам обработки цифровых данных для специальных применений в области прогнозирования и управления многопараметрическими процессами и сложными техническими системами и может быть использовано в ситуационных центрах различной предметной направленности, а также при оценивании устойчивости производства в условиях действия дестабилизирующих факторов технологического, технического и производственного характера, планировании и реализации программ развития вооружения и военной техники и прогнозировании военных конфликтов.

Изобретение относится к области медицины, в частности к способам исследования мозговой активности. Способ исследования мозговой активности включает функциональную МРТ регистрацию мозговой активности в процессе решения объектом исследования по меньшей мере трех задач, предназначенных для исследования определенных факторов с использованием различных стимулов, и получение серии изображений значений MP-сигнала во времени по каждой задаче, очистку полученных изображений от артефактов и приведение их к стандартному виду, формирование на основе обработанных изображений двумерной пространственно-временной матрицы значений интенсивностей (Z) МР-сигнала с нормализацией ее значений, при этом каждый столбец матрицы характеризует определенный воксель мозга, а каждая строка характеризует данные, полученные при очередном сканировании мозга в ходе решения объектом исследования определенной задачи, факторизацию полученной матрицы средствами факторного анализа, в процессе которой вычисляют матрицу коэффициентов корреляции R по всем строкам нормализованной матрицы интенсивностей, после чего определяют ее собственные значения и собственные вектора, на основе которых формируют матрицу факторных нагрузок (А), ортогональное вращение матрицы факторных нагрузок (А) и получение матрицы A(rot), характеризующей динамику каждого фактора во времени по каждой задаче, и содержательную интерпретацию факторов в качестве отдельных независимых элементарных психических процессов, задействованных при решении предъявленных задач, получение матрицы факторных значений Р на основе матрицы значений интенсивности (Z) и матрицы факторных нагрузок после вращения A(rot), которая характеризует локализацию каждого фактора в пространстве мозга и по которой судят о мозговом составе данной функциональной системы, обеспечивающих элементарные психические процессы, включенные в решение исходных задач, получение линейной математической модели, представляющей собой нейровизуализационную модель, отражающую сформированные функциональные мозговые системы, обеспечивающие выполнение человеком соответствующего ряда когнитивных задач.

Изобретение относится к области гидродинамического моделирования и может быть использовано для гидродинамического моделирования очага цунами. Сущность изобретения: строят гидродинамическую модель очага цунами с использованием прямого вычислительного эксперимента на основании макросейсмических аппроксимаций параметров подводного землетрясения.

Изобретение касается гидродинамического моделирования источника штормовых нагонов и экстремальных течений под воздействием подвижного атмосферного тайфуна. Сущность: определяют внешнее возмущение для прямого вычислительного эксперимента при моделировании штормовых нагонов и экстремальных течений вблизи побережья с возможностью выбора наиболее вероятных или потенциально опасных маршрутов атмосферных тайфунов и глубоких циклонов над открытым морем.

Изобретение относится к средствам подтверждения оплаты. Техническим результатом является снижение нагрузки на сервер проверки устройства и повышение безопасности системы.

Изобретение относится к способам обработки данных инклинометрии. Сущность: получают по меньшей мере данные одной инклинометрии от скважины.

Предложенное изобретение относится к области биотехнологии. Предложен способ валидации температурных, фотометрических и спектральных характеристик приборов для ПЦР-исследований.

Изобретение относится к генетике. Описан способ прогнозирования риска возникновения преэклампсии тяжелого течения у женщин русской национальности, уроженках Центрального Черноземья, относится к области медицинской диагностики.

Изобретение относится к области медицины, биологии и биотехнологии и предназначено для определения генотипа человека по полиморфизму в гене цитохрома Р450 CYP2D6*6 (1707delT) rs5030655.

Представленные изобретения касаются способа детектирования наличия аналита в жидком образце, способа детектирования наличия патогена в образце цельной крови, способа детектирования наличия вируса в образце цельной крови, способа детектирования присутствия нуклеиновой кислоты-мишени в образце цельной крови, способа детектирования наличия организмов, относящихся к видам Candida в жидком образце, системы для детектирования одного или более аналитов нуклеиновой кислоты в жидком образце и сменного картриджа для размещения реагентов для анализа и расходных материалов в указанной системе.

Изобретение относится к области биохимии. Описан способ оценки биотропного проявления электромагнитного излучения сверхвысокой частоты, интегрированного под контроль гена dps, согласно которому регуляторная область гена dps интегрируется в плазмиду рЕТ28b-EGFP перед геном репортерного белка GFP, клетки Е.

Изобретение относится к биохимии. Описан способ дифференциации пород медоносных пчел России на основе мутагенной ПЦР-ПДРФ.

Группа изобретений относится к области биохимии. Предложен тестовый элемент для определения гидроксибутирата и глюкозы, содержащий первый коферментзависимый фермент или субстрат для первого фермента (гидроксибутиратдегидрогеназу), второй коферментзависимый фермент или субстрат для второго фермента (глюкозодегидрогеназу или глюкозооксидазу), кофермент, выбранный из тио-NAD, тио-NADP и соединения формулы (I).

Изобретение относится к области медицины, биологии и биотехнологии и предназначено для определения генотипа человека по полиморфизму в гене цитохрома Р450 CYP2D6*4 (1846G>A) rs3892097.

Изобретение относится к области медицины, биологии и биотехнологии и предназначено для определения генотипа человека по полиморфизму в гене цитохрома Р450 CYP2D6*9 (2615-2617delAAG) rs5030656.

Изобретение относится к области медицины, биологии и биотехнологии и предназначено для определения генотипа человека по полиморфизму в гене цитохрома Р450 CYP2D6*3 (2549delA) rs35742686.

Предложенное изобретение относится к области биотехнологии. Предложен способ валидации температурных, фотометрических и спектральных характеристик приборов для ПЦР-исследований.

Предложены способ и устройство для детектирования хромосомных структурных аномалий. Представленный способ включает сегментирование хромосомного образца от целевого индивидуума, то есть множество пар прочтений, расположенных с двух концов исследуемых хромосомных фрагментов; выравнивание результата секвенирования с референсной последовательностью для получения набора аномальных соответствий, причем набор аномальных соответствий включает пары прочтений, которые имеют две последовательности прочтений, соответствующие, соответственно, различным хромосомам референсной последовательности; кластеризацию последовательностей прочтений в наборе аномальных соответствий на основании соответствующих им положений; и фильтрацию получаемых в результате кластеров с использованием, например, заранее заданных требований, связанных с компактностью, и других требований; и получение отфильтрованных итоговых кластеров для определения наличия хромосомной структурной аномалии транслокационного типа. Изобретения позволяют получить результат секвенирования всего генома индивидуума. 2 н. и 9 з.п. ф-лы, 7 ил., 2 пр.

Наверх