Организация данных

Материал из Институт биоинформатики
Перейти к: навигация, поиск

В этой статье приводится описание данных, используемых в исследованиях, связанных с Genequery.

Процесс сбора и подготовки данных

Условно подготовку данных для Genequery можно разделить на вычисление модулей (кластеров) и составление аннотаций для генов.

Подготовка модулей

Для работы GeneQuery используются данные GEO [1]. Для получения кластеров выполняются следующие шаги.

  • Выполняется запрос к GEO DataSet [2] вида
 "Mus Musculus"[Organism] 
     AND 12[n_samples] : 20[n_samples] 
     AND ("2009"[PDAT] : "2009"[PDAT]) 
     AND expression profiling by array[DataSet Type] 
     AND "gse"[Filter]

Параметры запроса могут варьироваться в зависимости от того, для какого вида, за какой промежуток времени, количества сэмплов и т.д., требуются данные

  • Результат запроса скачивается в виде текстового файла (далее METAFILE). GEO предоставляет такую возможность на странице выдачи.
  • Далее из этого файла извлекаются URLs с GSE архивами. Это может быть выполнено, например, следующим образом:
 URLS=`grep "FTP download" $METAFILE | grep GSE | perl -ne 'm/GEO( | \(.*\) )(ftp\:\/\/ftp.*\/)/; print "$2\n"'
   | awk -F "," '{print $1}'`
  • Скачиваются GSE архивы, соответствующие результату запроса.
  • Выполняется препроцессинг скаченных данных для подготовки к кластеризации.

TODO: Описать препроцессинг более подробно

  • Запускается собственно кластеризация алгоритмом WGSNA [3]

Аннотация генов и работа с GPL

Каждому GSE сопоставлен GPL файл. Разные GSE могут иметь один и тот же GPL, то есть использовать одну и ту же аннотацию. Так как поддерживать все GPL довольно сложно, используются лишь k самых частых (которыми аннотировано больше всего GSE). Те GSE, аннотации которых не входят в топ k GPL, отбрасываются из рассмотрения.

Далее из полученных k файлов извлекаются сами аннотации в Entrez и Symbol. Ниже приведен пример извлеченных из GPL10333 аннотаций для генов с id 57, 58 и 59:

 ID	SYMBOL	ENTREZ
 57	Pde4dip	83679
 58	Arl2	56327
 59	Gp9	54368

Конвертация генов между разными аннотациями

Genequery работает с id в разных аннотациях: Entrez, Symbol, RefSeq и Ensembl. Пользователь может вводить гены в любом из этих форматов. База данных же хранит все модули только в Entrez. При этом выдавать пересечения модулей с запросом необходимо в Symbol, так как это удобочитаемый формат. В связи с этим необходимо уметь переводить гены из одной нотации в другую.

За основную нотацию принята Entrez, так как она уникально определяет ген вне зависимости от вида, а также позволяет использовать натуральные числа в качестве id.

Были взяты файлы из FTP сервера NCBI [4] для человека, мыши и крысы. Данные файлы содержат информацию о генах в Entrez, Symbol и Ensembl. Также в них содержится информация о различных устаревших и неофициальных id. Для RefSeq был взят файл ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2refseq.gz из того же FTP сервера.

Далее данные об id в разных нотациях были извлечены из этих файлов (по определенным колонкам), отфильтрованы и преобразованы в списки пар вида (other означает неофициальные или устаревшие гены):

 Entrez	{Symbol|RefSeq|Ensembl|Other}
 entrez#1	notation#1
 entrez#2	notation#2
 ...	...

Например, для Entrez-Symbol:

 Entrez	Symbol
 12345	Abcd1
 5623	Nmad3.3

Здесь и далее такие списки будут называться отображениями. В таком виде данные очевидным образом используются для перевода id из одной аннотации в другую.

К сожалению, в этих отображениях есть множество неоднозначностей, т.е. один и тот же ген в одной нотации может быть представлен в нескольких вариантах. Это можно увидеть из таблицы ниже, где приведена общая информация по данным, собранным в 2015 году. Почти везде для конкретной нотации количество уникальных генов в ней меньше, чем количество пар в отображении. Это и означает неоднозначность.

Экземпляры баз данных

Данные собирались в 2013 и 2015 годах для разных наборов видов, с разными параметрами кластеризации и прочими разными свойствами.

Далее в таблицах статистика для аннотаций имеет формат

 Annot1-Annot2: <количество пар всего>/<количество уникальных Annot1 генов>/<количество уникальных Annot2 генов>

- означает, что количество генов совпадает с количеством пар.

2013 год

Общие данные

Распределение размеров модулей, база 2013
Плотность распределения частот генов, база 2013
Зависимость частот генов от позиции после упорядочивания по невозрастанию частоты, база 2013

Данные собирались для двух видов: человек и мышь.

Характеристика данных за 2013 год
Homo Sapiens Mus Musculus
GSEs скачено
GSEs в итоге 3822 2994
Средний GSE (в модулях) 21.6 18.6
Std размера GSE (в модулях) 12.0 10.8
Количество модулей 82649 55834
Средний размер модуля 263 306
Std размера модуля 462 534
Entrez-Symbol стат-ка 59612 / - / 59539 71502 / - / 71161
Entrez-RefSeq стат-ка 169254 / 40796 / - 140837 / 43429 / -
Entrez-Ensembl стат-ка 26591 / 26466 / 26487 22451 / 22400 / 22395

Распределение генов

На приведенных графиках можно видеть плотность распределения частот генов в базе. Вертикальной линией отмечена 0.5-квантиль: 337 для человека, 241 для мыши. То есть половина всех генов встречаются очень редко.

Если упорядочить гены по невозрастанию их частот, то получится график зависимости частоты гена от его позиции после упорядочивания.

2015 год

Данные собирались для трех видов: человек, мышь и крыса.

TODO: Добавить пару строк о выборе параметров кластеризации

Характеристика данных за 2015 год
Homo Sapiens Mus Musculus Rattus Norvegicus
GSEs скачено
GSEs в итоге
Средний размер модуля
Std размера модуля
Entrez-Symbol стат-ка 59612 / - / 59539 71502 / - / 71161 42265 / - / 42264
Entrez-RefSeq стат-ка 169254 / 40796 / - 140837 / 43429 / - 80088 / 31413 / -
Entrez-Ensembl стат-ка 26591 / 26466 / 26487 22451 / 22400 / 22395 18199 / 18121 / 18119

Было взято топ 30 GPL по частоте использования для каждого вида.

  • Человек

GPL10332,GPL10558,GPL11532,GPL13497,GPL13607,GPL13667,GPL14550,GPL14951,GPL15207, GPL16686,GPL17077,GPL1708,GPL201,GPL2895,GPL3921,GPL4133,GPL570,GPL571,GPL6102, GPL6104,GPL6244,GPL6480,GPL6883,GPL6884,GPL6947,GPL8300,GPL887,GPL91,GPL96,GPL97

  • Мышь

GPL10333,GPL10787,GPL11180,GPL11202,GPL11533,GPL1261,GPL13912,GPL16570,GPL17543, GPL260,GPL2872,GPL2897,GPL2995,GPL339,GPL340,GPL4134,GPL5642,GPL6103,GPL6105, GPL6246,GPL6481,GPL6867,GPL6885,GPL6887,GPL7202,GPL81,GPL82,GPL83,GPL8321,GPL891

  • Крыса

GPL11534,GPL1355,GPL14745,GPL14746,GPL14797,GPL15084,GPL17117,GPL2877,GPL2896, GPL2996,GPL341,GPL342,GPL4135,GPL5425,GPL5426,GPL6101,GPL6247,GPL7294,GPL8031, GPL85,GPL86,GPL87,GPL890

Прочее

Ссылки

  1. Gene Expression Omnibus, http://www.ncbi.nlm.nih.gov/geo
  2. GEO DataSet, http://www.ncbi.nlm.nih.gov/gds
  3. WGCNA: an R package for weighted correlation network analysis, https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA
  4. National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/