Week4

Материал из Институт биоинформатики
Перейти к: навигация, поиск

Журнальный клуб: неделя 4

На четвертой неделе журнального клуба мы обсудили статьи, посвященные альтернативному сплайсингу. На повестке дня были такие вопросы: насколько такая форма регуляции экспрессии генов распространена и как осуществляется, какую роль альтернативный сплайсинг играет в патогенезе различных заболеваний, в развитии органов и тканей, а также о том, как альтернативный сплайсинг РНК оказывает влияние на взаимодействие белков и как и зачем изучать "сплайсинговый" код.

Deciphering the splicing code.

Статья посвящена сплайсинговому коду. В результате альтернативного сплайсинга ткани имеют различный состав транскриптов даже если работает одинаковый набор генов. Регуляция тканеспецифичного сплайсинга осуществляется регулярными белками, первичной и вторичной структурой транскрипта, длиной экзона.

В этой статье была предпринята попытка разработать модель альтернативного сплайсинга но основе различных особенностей мРНК - мотивов, элементов вторичной структуры и прочих. Использовали много разных предсказаний и машинное обучение, получили на выходе некий набор правил, по которому можно для двухинтронных транскриптов предсказывать тканеспецифичные изоформы (где какой экзон будет включаться в mature mRNA).

В качестве материала были взяты данные о последовательностях экзонов из 27 клеточных популяций и 151 известных мотивов-регуляторов. Выяснилось, что нервная ткань была представлена самым маргинальным составом экзонов. Исследователи брали разное число факторов и показали что чем больше учитывать влияющих на сплайсинг характеристик тем предсказательниц сила выше.

Получили неплохую общую эффективность предсказаний и даже проверили модель на реальном случае изменения включения одного экзона Xpo4 в итоговую мРНК, которое происходит только на постэмбриональной стадии, что приводит к подавлению экспрессии гена засчет наличия в сплайсируемом экзоне стоп-кодона, приводящего к NMD. Проверили данные предсказания по литературе: в общем приближении все сходится, однако есть ряд дистинктных различий (например, для сплайсинга в нейрональном типе клеток).


The human splicing code reveals new insights into the genetic determinants of disease.

Cтатья рассказывает о том, как мы можем использовать знания о коде сплайсинга в диагностике. Авторы разработали компьютерную модель регуляции сплайсинга, которая может быть применена к любой последовательности, содержащей триплет экзонов. Тот же самый сплайсинговый код, только теперь ориентирующийся на различные регуляторные элементы, а не только на особенности транскрипта. Имеются основания предполагать, что при таком подходе результаты получаются точнее.

В данном исследовании ученые применили свой код к предсказанию эффектов различных SNP на сплайсинг. Ход действий был довольно простым - на первом этапе прогнали предсказания изменения процента сплайсинга экзона (PSI) для всего dbSNP (на 600,000 вариантов). Получили множество вариантов, предположительно влияющих на эффект сплайсинга.

Рассматривались заболевания: аутосомно-рецессивные (спинальная мускульная атрофия), олигогенетические и комплексные генные. Для исследования влияния тех или иных экзонов на развитие этих заболеваний человека было взято 11 000 экзонов, данные РНК-секвенирования и данные по цис-элементам.

Кроме того авторы разделили по функциональному значению найденные экзоны, которые вероятнее всего влияют на развитие заболеваний и большая часть из них связяна с мозговыми тканями. Молчащие мутации могут влиять на фенотип, изменяя сплайсинг.

На следующем этапе исследователи попробовали получить пересечения результатов каталогами GWAS, и усомнились в точности данных GWAS, так как SNP, которые ассоциированы в GWAS, на самом деле по коду непохожи на SNP реально вызывающие заболевания. Дальше они применили свой код для изучения влияния разных снипов на три заболевания - рак прямой кишки, аутизм и амиотрофию. Получили, что действительно, какие-то SNP (как, например, как раз в последнем случае) у них действительно выходят на первый план и их эффект подтверждается. Кроме того, нашли SNP, влияющие на сплайсинг находясь чуть ли не за килобазу до таргетного региона.

Из интересного также следует отметить то, что при раке кишечника все 7 найденных генов участвуют в mis-match репарации, из-за чего нарушается сплайсинг, и видимо это в дальнейшем может привести к развитию данного заболевания.


Transcriptional diversity during lineage commitment of human blood progenitors.

В данной статье изучалось то, что происходит в процессе дифференцировки у клеток крови. В исследовании рассматривались различные аспекты процессов эритропоэза и мегакариопоэза. Авторы брали пуповинную кровь и из неё выделяли 6 популяции клеток крови. Было проведено РНК-секвенирование, произведена оценка экспрессии, определение тканеспецифичных транскриптов (9-model polytomus classification), а также анализ дифференциальной экспресии на уровне генов (с помощью rtPCR). Выявили достаточно много специфичных транскриптов, как белок-кодирующих так и белок-некодирующих. Из 23, проверенных с помощью PCR вариантов, только два подтвердилось другим методом. Известно, что альтернативный сплайсинг регулируется цис-элементами, и поэтому был проведён анализ этих мотивов в раличных типах клеток (смотрели на то, какие мотивы очень часто предствалены, либо наоборот в недостатке (исследовалось ~100 РНК связывающих мотивов)).

Итог:

1) Определили тканеспецифичные гены

2) Определили специфические варианты сплайсинга (Энтропия Шеннона)

3) Определили регион-специфичные паттерны RBP около сплайсирующихся или несплайсирующихся экзонов

4) Нашли специфичные варианты сплайсинга, которые важны для регуляции гемопоэза

5) Нашли новую изоформу транскрипционного фактора NFIB, которая регулирует мегакариоцитопоэз


Widespread Expansion of Protein Interaction Capabilities by Alternative Splicing.

В данной статье представлены результаты исследования того, как взаимодействуют физически (PPI) разные изоформы белков Применяли стратегию ORF seq. Для 1500 генов человека у авторов был набор ORF, после секвенирования и клонирования этих генов они смогли получить большое количество копий с различными альтернативными вариантами (Кроме того, так называемых рефенсных ORF больше, что из-за чего они возможно больше представлены в базах данных).

С использованием двугибридной дрожжевой системы было показано в нескольких повторностях взаимодействие каждой изоформы одного и того же белка с другими белками. После чего провели PCA анализ, для выявления достоверности связывания определённой изоформы белка с другими белками. Получилучилось, что разные сплайс-изоформы сильно разнятся по PPI-свойствам. Из всех исследуемых изоформ белков, 118 изоформ вообще не имеет попарного свзывания. Из более, чем 1000 взаимодействий только небольшое количество показывало уже известные взаимодействия, соответственно изучение различных ранее неизвестных изоформ белков глобально увеличивает сеть белок-белковых взаимодействий. Авторы показали, что чаще всего изоформы одного и того же белка функционально являются аллоформами, то есть большая часть альтернативных изоформ взаимодействуют с одними и теми же белками, но это взаимодействие носит совершенно различный характер. То есть такие изоформы одного белка могут функционально настолько отличаться друг от друга, что они скорее похожи на продукты различных генов, нежели одного.

Из этого может следовать такой вывод: у нас не 20 тыс генов, а все 700 тыс, из-за различий в функциях изоформ одного и того же белка.


A single-molecule long-read survey of the human transcriptome

В данной статье применяли PacBio для анализа молекул кДНК целиком. Отсеквенировали рнк 20-ти типов тканей, получили два набора ридов (с высокой и низкой точностью). Оценивали насколько полно происходит итоговое определение рида с консенсусного. Каждая молекула прочитывается несколько раз, получается консенсусная последовательность (CCS). Проводили сравнение с аннотированными транскриптами - большая часть совпала целиком. С помошью СММ проверяли можно ли прочесть полиТ начало или полиА хвост -> хорошие результаты, вполне себе можно. Выровняли прочтения на геном, нашли части, которые не были проаннотированы. В целом все очень неплохо. ERCC тест -- набор ридов с известной концентрацией выровняли на то, что получилось у них. Экзон-интронная структура: у большинства CCS, разделившихся при наложении на геном присутствовали сигнальные последовательности сплайсинга. False-positive rate: рандомное внесение ошибок в пропорции к их данным и наложение на геном. FPR около 2% -- неплохо. Чем сильнее ген экспрессируется, тем больше изоформ.

Итог: 99% ридов средненько замапились на человека, 85% хорошо замапились, часть замапилась на неаннотированные участки. Большинство ридов содержат 5'-конец экзона.

Сравнивали с технологией 454, на ней получается хуже, распределение ошибок по длине у PacBio более равномерное по сравнению с 454.

Посыл статьи таков: Если хотите неплохой транскриптом, то работайте с PacBio, мы ее протестировали, она очень хорошая!