Chipseq

Материал из Институт биоинформатики
Перейти к: навигация, поиск

Необходимые программы

Прежде всего, нужен Unix (для простоты Ubuntu) со всеми дефолтными утилитами.

Нужно, чтобы у вас работала Java, очень желательно 64-битная (если ваш компьютер 32-битный, этого у вас не выйдет, но вообще уже пора задуматься о том, чтобы избавиться от 32-битного компьютера).

Далее, для успешной обработки ChIP-seq, опубликованного в базе данных GEO Omnibus, вам необходимы следующие программы:

  1. fastq-dump из SRA Toolkit
  2. samtools
  3. bedtools
  4. bowtie2
  5. igvtools (нужно скачать zip-архив igvtools по ссылке - прокручивайте вниз).
  6. MACS1.4
  7. IGV - требуется регистрация.

Необходимые референсные файлы

Для выравнивания вам необходимо скачать подходящую версию референсного генома. Для большинства задач мы пользуемся аннотацией Gencode - и, соответственно, используем те же сборки генома. В последней референсной версии (Gencode v24) нам нужна т.н. primary версия сборки GRCh38.p5, доступная вот здесь. Эта версия - расширенная версия hg38: все основные хромосомы совпадают, но есть дополнительные фрагменты.

Далее, .fa файлы нужно разархивировать, переименовать, и сделать индексы при помощи bowtie2:

gzip -d GRCh38.primary_assembly.genome.fa.gz
mv GRCh38.primary_assembly.genome.fa genprime_v24.fa
bowtie2-build genprime_v24.fa genprime_v24

Это займет час-два, и даст вам несколько файлов с расширением .bt2 - это и есть ваш индекс.

Порядок обработки эксперимента ChIP-seq

Скачиваете .sra файл. Убедитесь, что у вас достаточно места - разархивированные файлы могут быть очень большими.

wget -b /path/to/sra/file/SRR123456.sra 

Превращаете .sra файл в .fastq.gz файл (тут мы предполагаем, что данный эксперимент single-end).

fastq-dump --split-3 SRR123456.sra 
mv SRR123456.fastq HeLa_TNFa_rep1.fastq
gzip HeLa_TNFa_rep1.fastq

Выравниваете .fastq.gz файл на референсный геном, получая .bam файл. Нижеследующий код предполагает что у вас есть 4 свободных процессора - меняйте по необходимости. single-end

bowtie2 --sensitive-local -t -p 4 -S HeLa_TNFa_rep1.sam -x /media/DISK1/reference/Bowtie2/genprime_v24 -U HeLa_TNFa_rep1.fastq.gz &> HeLa_TNFa_rep1.bowtie2.log & 
samtools view -bS -q 10 HeLa_TNFa_rep1.sam > HeLa_TNFa_rep1.bam
samtools sort -@ 4 -T  HeLa_TNFa_rep1 -o HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam 
mv HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam 
rm HeLa_TNFa_rep1.sam

paired-end

bowtie2 --sensitive-local -t -p 4 -S HeLa_TNFa_rep1.sam -x /media/DISK1/reference/Bowtie2/genprime_v24 -1 HeLa_TNFa_rep1.R1.fastq.gz -2 HeLa_TNFa_rep1.R2.fastq.gz &> HeLa_TNFa_rep1.bowtie2.log &
samtools view -bS -q 10 HeLa_TNFa_rep1.sam > HeLa_TNFa_rep1.bam
samtools sort -@ 4 -T  HeLa_TNFa_rep1 -o HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam  
mv HeLa_TNFa_rep1.sorted.bam HeLa_TNFa_rep1.bam 
rm HeLa_TNFa_rep1.sam

Подсчитываете прочтения и получаете готовый к визуализации в IGV .tdf файл. Для простоты можно указать hg38 как сборку - иначе надо добавить файл с длинами дополнительных хромосом в соотв. папку IGVtools.

igvtools count -z 5 -w 50 -e 0  HeLa_TNFa_rep1.bam  HeLa_TNFa_rep1.tdf hg38 >&  HeLa_TNFa_rep1.make_tdf.log  

Определение пиков при помощи MACS1.4 (только для узких пиков!) Если нет бэкграунда:

macs14 -t $i -f HeLa_TNFa_rep1.bam -g hs -n HeLa_TNFa_rep1 --verbose=2  &> HeLa_TNFa_rep1.macs.log & 

Если есть бэкгаунд HeLa_Input.bam:

macs14 -t $i -f HeLa_TNFa_rep1.bam -c HeLa_Input.bam -g hs -n HeLa_TNFa_rep1 --verbose=2  &> HeLa_TNFa_rep1.macs.log & 

Визуализация

Визуализация производится при помощи программы IGV. Вы должны увидеть что-нибудь примерно такого рода:

Для широких пиков (гистонные модификации)

Для определения широких пиков нужно использовать программу SICER.