Подготовка выровненных ридов к определению вариантов

Материал из Институт биоинформатики
Перейти к: навигация, поиск
GATK Best Practices
Выровненные на предыдущем этапе на геном риды необходимо провести через несколько дополнительных стадий анализа. Эти стадии включают в себя маркировку дупликатных ридов, перевыравнивание вокруг участков известных инделов и рекалибровку качества оснований. Все эти процедуры призваны увеличить точность и аккуратность последующего определения вариантов при помощи GATK. Данная статья заканчивает описание первого этапа протокла GATK Best Practices - Data Pre-processing.


Маркировка дупликатов

Дупликаты в данных секвенир ования на платформе Illumina могут возникать по двум основным причинам: из-за ошибочного разделения одного кластера на два программным обеспечением прибора (оптические дупликаты), а также в результате ПЦР (ПЦР-дупликаты). Наличие дупликатных ридов в данных может вносить некоторый bias в процесс variant calling'а. Поэтому, перед анализом необходимо пометить такие риды в BAM файле, поставив около них специальную отметку (флаг). Это делается при помощи Picard Tools.

java -Xmx2g -jar /Molly/barbitoff/software/picard-tools-2.0.1/picard.jar \ 
     MarkDuplicates I=sample_X.sorted.bam O=sample_X.dedup.bam \  
     M=picard_logs/sample_X.metrics &> picard_logs/sample_X.log &

Перевыравнивание вокруг участков инделов

Точность детекции вариантов типа "вставка-выпадение" может существенно снижаться засчет того, что выравнивание ридов вокруг таких участков может носить ошибочный характер. Для того, чтобы точно определить инделы, необходимо локально выровнять риды вокруг известных сайтов инделов. Для этого в GATK существует отдельный пакет программ,. Запустить процесс перевыравнивания можно примерно так:

samtools index sample_X.dedup.bam

java -Xmx2g -jar /Molly/barbitoff/software/gatk-protected/target/GenomeAnalysisTK.jar \ 
     -T RealignerTargetCreator \ 
     -R /Molly/barbitoff/reference/GATK_b37/human_g1k_v37.fasta -I sample_X.dedup.bam\ 
     -L /Molly/barbitoff/reference/illumina.intervals \ 
     -known /Molly/barbitoff/gatk-bundle-b37/Mills_and_1000G_gold_standard.indels.b37.vcf \
     -o sample_X.target.intervals &> ./gatk_logs/sample_X.TargetCreator.log &

java -Xmx2g -jar /Molly/barbitoff/software/gatk-protected/target/GenomeAnalysisTK.jar \
     -T IndelRealigner \ 
     -R /Molly/barbitoff/reference/GATK_b37/human_g1k_v37.fasta -I sample_X.dedup.bam \ 
     -targetIntervals sample_X.target.intervals \ 
     -L /Molly/barbitoff/reference/illumina.intervals \ 
     -known /Molly/barbitoff/gatk-bundle-b37/Mills_and_1000G_gold_standard.indels.b37.vcf \ 
     -o sample_X.realigned.bam &> ./gatk_logs/sample_X.IndelRealigner.log &

Перед использованием любых walker-ов из GATK необходимо иметь индексированные BAM-файлы.

Рекалибровка качества оснований

Этап рекалибровки качества оснований является последним для подготовки ридов к определению вариантов. Известно, что оценки качества оснований, выдаваемые прибором, носят необъективный характер и часто зависимы от цикла секвенирования, окружения данного основания и фазы Луны. Для того, чтобы избавиться от проблем с оценкой качества, необходимо внести поправки на основе наблюдаемых взаимосвязей между качеством основания и вышеописанными факторами. Этот этап также производится GATK-ом.

java -Xmx20g -jar /Molly/barbitoff/software/gatk-protected/target/GenomeAnalysisTK.jar \ 
     -T BaseRecalibrator \
     -R /Molly/barbitoff/reference/GATK_b37/human_g1k_v37.fasta \ 
     -I sample_X.realigned.bam \
     -knownSites /Molly/barbitoff/gatk-bundle-b37/dbsnp_138.b37.vcf \ 
     -knownSites /Molly/barbitoff/gatk-bundle-b37/Mills_and_1000G_gold_standard.indels.b37.vcf \
     -L /Molly/barbitoff/reference/illumina.intervals \ 
     -o sample_X.recal.table 2> ./gatk_logs/sample_X.BaseRecalibrator.log

java -Xmx20g -jar /Molly/barbitoff/software/gatk-protected/target/GenomeAnalysisTK.jar \
     -T PrintReads \
     -R /Molly/barbitoff/reference/GATK_b37/human_g1k_v37.fasta \
     -I sample_X.realigned.bam -BQSR sample_X.recal.table \ 
     -o sample_X.recal.bam 2> ./gatk_logs/sample_X.PrintReads.log