WES

Материал из Институт биоинформатики
Перейти к: навигация, поиск

Полноэкзомное секвенирование (whole-exome sequencing/WES) представляет собой важную альтернативу полногеномному секвенированию, в первую очередь, в клинических применениях. При экзомном секвенировании, в отличии от полногеномного, секвенируются только участки экзонов, то есть непосредственно белок-кодирующих последовательностей, которые составляют всего 1-3% человеческого генома. В связи с этим, секвенирование этих участков с достаточным для определения клинически значимых вариаций покрытием имеет существенно меньшую стоимость и является гораздо более эффективным вариантом.

Методология экзомного секвенирования

Классическая методика экзомного обогащения

Для того, чтобы секвенировать только участки, принадлежащие экзому, необходимо специфическим образом обогатить фрагментную библиотеку ДНК при помощи специального набора зондов (англ. probes, bait). Всего существуют три основных компании, производящие наборы реагентов для приготовления экзомных библиотек - Illumina, Nimblegen (Roche) и Agilent. Каждая из компаний использует специфические реагенты и наборы мишеней.

Специфика решения от Illumina Nextera является использование при приготовлении фрагментной библиотеки специального фермента - Nextera-транспозазы, производящего одновременную фрагментацию ДНК и лигирование адаптерных последовательностей. Эта особенность является причиной многих "болезней" набора от Illumina, включая небольшую длину итогового фрагмента библиотеки и повышенное загрязнение адаптерами 3'-позиций в ридах. Набор от Roche представляет собой хорошую и стабильную альтернативу Nextera, обеспечивающую большую равномерность покрытия оснований по длине мишени. Однако, согласно литературным данным, наиболее качественное обогащение представляют наборы от Agilent, использующие в качестве зондов РНК-мишени длиной до 120 п.н.

Пайлайн анализа данных экзомного секвенирования

Анализ данных экзомного секвенирования начинается со стадии сырых сиквенсных прочтений (ридов), выдаваемых прибором, а заканчивается (в идеале) списком вариаций (одно/мультинуклеотидных вариантов/полиморфизмов - SNV(P)/MNV(P) и изменений типа "вставка-выпадение" (indel)), отличающих наш образец от референса (совсем круто - списком значимо ассоциированных с фенотипом вариантов). Основные этапы анализа (начиная с ридов и заканчивая вариантами) можно суммировать следующим образом:

Для обработки данных нами построен пайплайн на основе стандартных программ BWA и Genome Analysis ToolKit (GATK). Процесс обработки данных включает в себя много этапов, призванных улучшить качество определения вариаций в геноме. О каждом из этих этапов подробнее можно узнать по ссылкам выше.

Помимо программного пакета GATK, определение вариаций в геноме можно проводить другими программами, имеющими свои достоинства и недостатки. Для верификации и уточнения списка вариантов нами также используются программы ScanIndel и Fermi.

Дополнительным (но от этого не менее важным) этапом анализа экзомного секвенирования является контроль качества, который стоит проводить на всех этапах для более правильной оценки результатов. Помимо классической стадии QC, проводимой при любом секвенировании на стадии ридов, экзомное секвенирование также подразумевает контроль качества обогащения библиотек по участкам экзонов, а также QC полученных вариантов и (потенциально) оценку контаминации образцов ДНК иного происхождения. Подробно про контроль качества экзомного секвенирования можно почитать на странице Exome QC.