Chipseq
Содержание
Необходимые программы
Прежде всего, нужен Unix (для простоты Ubuntu) со всеми дефолтными утилитами.
Нужно, чтобы у вас работала Java, очень желательно 64-битная (если ваш компьютер 32-битный, этого у вас не выйдет, но вообще уже пора задуматься о том, чтобы избавиться от 32-битного компьютера).
Далее, для успешной обработки ChIP-seq, опубликованного в базе данных GEO Omnibus, вам необходимы следующие программы:
- fastq-dump из SRA Toolkit
- samtools
- bedtools
- bowtie2
- igvtools (нужно скачать zip-архив igvtools по ссылке - прокручивайте вниз).
- MACS1.4
- IGV - требуется регистрация.
Необходимые референсные файлы
Для выравнивания вам необходимо скачать подходящую версию референсного генома. Для большинства задач мы пользуемся аннотацией Gencode - и, соответственно, используем те же сборки генома. В последней референсной версии (Gencode v24) нам нужна т.н. primary версия сборки GRCh38.p5, доступная вот здесь. Эта версия - расширенная версия hg38: все основные хромосомы совпадают, но есть дополнительные фрагменты.
Далее, .fa файлы нужно разархивировать, переименовать, и сделать индексы при помощи bowtie2:
gzip -d GRCh38.primary_assembly.genome.fa.gz mv GRCh38.primary_assembly.genome.fa genprime_v24.fa bowtie2-build genprime_v24.fa genprime_v24
Это займет час-два, и даст вам несколько файлов с расширением .bt2 - это и есть ваш индекс.
Порядок обработки эксперимента ChIP-seq
Скачиваете .sra файл. Убедитесь, что у вас достаточно места - разархивированные файлы могут быть очень большими.
wget -b /path/to/sra/file/SRR123456.sra
Превращаете .sra файл в .fastq.gz файл (тут мы предполагаем, что данный эксперимент single-end).
fastq-dump --split-3 SRR123456.sra mv SRR123456.fastq HeLa_TNFa_rep1.fastq gzip HeLa_TNFa_rep1.fastq
Выравниваете .fastq.gz файл на референсный геном, получая .bam файл. Нижеследующий код предполагает что у вас есть 4 свободных процессора - меняйте по необходимости. single-end
bowtie2 --sensitive-local -t -p 4 -S HeLa_TNFa_rep1.sam -x /media/DISK1/reference/Bowtie2/genprime_v24 -U HeLa_TNFa_rep1.fastq.gz &> HeLa_TNFa_rep1.bowtie2.log & samtools view -bS -q 10 HeLa_TNFa_rep1.sam > HeLa_TNFa_rep1.bam samtools sort -@ 4 -T HeLa_TNFa_rep1 -o HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam mv HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam rm HeLa_TNFa_rep1.sam
paired-end
bowtie2 --sensitive-local -t -p 4 -S HeLa_TNFa_rep1.sam -x /media/DISK1/reference/Bowtie2/genprime_v24 -1 HeLa_TNFa_rep1.R1.fastq.gz -2 HeLa_TNFa_rep1.R2.fastq.gz &> HeLa_TNFa_rep1.bowtie2.log & samtools view -bS -q 10 HeLa_TNFa_rep1.sam > HeLa_TNFa_rep1.bam samtools sort -@ 4 -T HeLa_TNFa_rep1 -o HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam mv HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam rm HeLa_TNFa_rep1.sam
Подсчитываете прочтения и получаете готовый к визуализации в IGV .tdf файл. Для простоты можно указать hg38 как сборку - иначе надо добавить файл с длинами дополнительных хромосом в соотв. папку IGVtools.
igvtools count -z 5 -w 50 -e 0 HeLa_TNFa_rep1.bam HeLa_TNFa_rep1.tdf hg38 >& HeLa_TNFa_rep1.make_tdf.log
Определение пиков при помощи MACS1.4 (только для узких пиков!) Если нет бэкграунда:
macs14 -t $i -f HeLa_TNFa_rep1.bam -g hs -n HeLa_TNFa_rep1 --verbose=2 &> HeLa_TNFa_rep1.macs.log &
Если есть бэкгаунд HeLa_Input.bam:
macs14 -t $i -f HeLa_TNFa_rep1.bam -c HeLa_Input.bam -g hs -n HeLa_TNFa_rep1 --verbose=2 &> HeLa_TNFa_rep1.macs.log &
Визуализация
Визуализация производится при помощи программы IGV. Вы должны увидеть что-нибудь примерно такого рода:
Для широких пиков (гистонные модификации)
Для определения широких пиков нужно использовать программу SICER.