Genequery glossary

Материал из Институт биоинформатики
Перейти к: навигация, поиск

Определения

Аннотация генов

Определение:
Аннотация генов – именование генов определенным образом.

Различают разные виды аннотаций, например:

  • Entrez – состоит только из цифр: 1, 53234, 23243
  • Symbol – произвольная последовательность символов (маловероятно совпадающая с другими нотациями): A1BG (для человека), A1bg (для мышки и крысы)
  • Refseq – начинаются с префиксов NM_, NR_, XM_, XR_, после которых идет числовая последовательность: NM_001081033
  • Ensembl – начинаются с префиксов ENSG (человек), ENSMUSG (мышь), ENSRNOG (крыса), после которых идет числовая последовательность: ENSG00000121410, ENSRNOG00000028896

GSE

Определение:
GSE (GEO Series) – данные об экспрессии генов в пределах одного эксперимента.

В базе данных GSE представлены в виде набора непересекающихся модулей – результата кластеризации. Количество модулей в GSE есть количество найденных сигнальных путей плюс нулевой модуль.

GPL

Определение:
GPL (GEO Platform) – файлы аннотаций, описывающие конкретный микрочип.


Модуль

Определение:
Модуль – кластер, полученный в результате кластеризации генов по их экспрессии в пределах одного эксперимента.

Гены в модуле (кроме нулевого модуля) представляют собой сигнальный путь .

Нулевой модуль

Определение:
Нулевой модуль – кластер, состоящий из генов, не входящих ни в один из сигнальных путей.


Сигнальный путь (pathway)

Определение:
Сигнальный путь (англ. pathway) – набор генов, одинаково экспрессирующихся в тех или иных условиях.

В базе данных сигнальными путями являются модули .

База данных Genequery

Определение:
База данных (БД) в Genequery – информация о модулях, частотах генов, аннотации генов и т.д., представленная в том или ином виде (sql БД, файлы, и т.д.).


Изоморфизм БД по модулям

Определение:
Две БД изоморфны по модулям, если существует взаимно-однозначное отображение модулей одной базы в модули другой, которое сохраняет размер модулей.

Пример: базы данных с размерами модулей {123, 321, 22} и {22, 123, 321} соответственно являются изоморфными по модулям, а базы {1, 2, 3} и {1, 2, 4} – не являются, так как 3 != 4. Базы {1, 2, 3} и {1, 2, 3, 4} также не являются изоморфными по модулям, так как модулю с размером 4 из второй базы не соответствует никакой модуль из первой.

Частота гена

Определение:
Частота гена – количество модулей, содержащих данный ген. Совпадает с количеством GSE, содержащих данный ген.