Em formação

Existe um recurso para consultar a similaridade de expressão gênica? Estratificado por sexo?


Desenvolvemos esse recurso. Os editores da "Bioinformática" (da OUP) rejeitaram o artigo, alegando que não fizemos uma comparação com recursos "de última geração" [semelhantes]. Alguém pode me ajudar a encontrar recursos semelhantes? Link para nosso próprio recurso, ExFiles.


Existem alguns recursos semelhantes, que ao mesmo tempo não misturam os ingredientes da mesma forma que a sua ferramenta. Espero que apontar as respectivas diferenças ajude na sua refutação ou reenvio! por exemplo.:

  • Um serviço da web semelhante faz parte do flyrnai, onde a expressão específica do tecido também pode ser comparada com base no sexo, e os genes podem ser consultados pela semelhança de seu perfil de expressão gênica com outros genes.
  • Um recurso que tem alguma relação conceitual com relação à similaridade específica do sexo na expressão gênica, e que também é baseado no conjunto de dados GTEx, foi publicado recentemente na forma de tabelas por Gershoni et Pietrokovski, BMC Biol, 2017.
  • Um recurso muito bom e amplo de perfis de expressão gênica de alta qualidade em tecidos individuais, mas também em resposta a estímulos, é o EBI GXA. Embora a interface da web só permita consultar perfis de expressão específicos de sexo, pessoas com mentalidade computacional podem prontamente computar (des) similaridade entre amostras depois de baixar o dump de dados (bem estruturado) do EBI GXA.
  • Uma ferramenta semelhante em termos de visualização de padrões de expressão específicos do sexo faz parte do gtexportal, embora pareça limitada a exibir um único gene.

Construção e Aplicação de um Perfil de Expressão Espatiotemporal Eletrônica e Plataforma de Análise de Ontologia Genética com Base no Banco de Dados de EST do Bicho-da-Seda, Bombyx mori

Um Tag de Sequência Expressa (EST) é uma sub-sequência curta de uma sequência de cDNA transcrita. ESTs representam a expressão gênica e fornecem boas pistas para a análise da expressão gênica. Com base nos dados de EST obtidos do NCBI, foi desenvolvido um pacote de análise de EST (apEST). Esta ferramenta foi programada para expressão eletrônica, anotação de proteínas e análise de categoria de Ontologia Genética (GO) em Bombyx mori (L.) (Lepidoptera: Bombycidae). Um total de 245.761 ESTs (em 01 de julho de 2009) foi pesquisado e baixado no formato FASTA, a partir do qual as informações para tipo de tecido, estágio de desenvolvimento, sexo e cepa foram extraídas, classificadas e somadas pela execução de apEST. Em seguida, os perfis de distribuição correspondentes foram formados depois que as peças redundantes foram removidas. Perfis de expressão gênica para um tecido de diferentes estágios de desenvolvimento e de um estágio de desenvolvimento dos diferentes tecidos foram obtidos. Um gene de manutenção e genes específicos de tecido e estágio foram selecionados executando apEST, contrastando com duas outras abordagens de análise online, perfil de expressão de gene baseado em microarray no SilkDB (BmMDB) e perfil EST no NCBI. Um perfil de expressão espaço-temporal de catalase executado por apEST foi então apresentado como um gráfico tridimensional para a visualização intuitiva de padrões. Um total de 37 genes de consulta confirmados a partir de dados de microarray e experimentos RT & # x02014PCR foram selecionados como consultas para testar apEST. Os resultados apresentaram grande conformidade entre as três abordagens. No entanto, houve pequenas diferenças entre apEST e BmMDB por causa dos itens exclusivos investigados. Portanto, foi proposta uma análise complementar. A aplicação de apEST também levou à aquisição de anotações de proteínas correspondentes para conjuntos de dados EST e, eventualmente, para suas funções. Os resultados foram apresentados de acordo com informações estatísticas sobre anotação de proteínas e categoria Gene Ontology (GO). Todos estes comprovaram a fiabilidade do apEST e a operacionalidade desta plataforma. O apEST também pode ser aplicado em outras espécies modificando alguns parâmetros e serve como modelo para o estudo da expressão gênica de lepidópteros.


Introdução

O receptor 1 de agregação endotelial de plaquetas (PEAR1 também conhecido como JEDI e MEGF12) é um receptor transmembrana recentemente identificado e expresso em vários tecidos diferentes, com maior expressão em células endoteliais e megacariócitos [1]. Embora pouco seja conhecido atualmente sobre o (s) mecanismo (s) molecular (s) desse receptor, investigações anteriores sugerem que PEAR1 é importante em uma ampla gama de funções biológicas, incluindo agregação plaquetária sustentada por meio da glicoproteína & # x003b1IIb & # x003b23 [2], megacariopoiese alterada e trombopoiese através das vias PI3K / PTEN [3], e depuração de neurônios apoptóticos por meio de atividades dependentes de endocitose nos gânglios da raiz dorsal [4]. Além dessas investigações baseadas em mecanismo, vários estudos examinaram o papel da variação genética em PEAR1, mais notavelmente o polimorfismo de nucleotídeo único intrônico (SNP) rs12041331. Estes estudos implicaram o genótipo rs12041331 em diferencial PEAR1 expressão, bem como agregação plaquetária, tanto na linha de base quanto na presença de agentes terapêuticos, como aspirina e prasugrel [5 & # x0201311]. No entanto, um efeito aparentemente paradoxal de rs12041331 nos fenótipos cardiovasculares foi observado - o alelo associado a uma melhor resposta à aspirina, conforme medido por testes de função plaquetária, também está associado a maiores taxas de eventos cardiovasculares adversos em pacientes com doença arterial coronariana em uso de aspirina, potencialmente sugerindo um papel alternativo para PEAR1 na progressão da doença cardiovascular [10].

Dado que PEAR1 é mais altamente expresso em células endoteliais [1], primeiro exploramos os efeitos da variação genética em PEAR1 na função endotelial. Especificamente, testamos o impacto de rs12041331 na dilatação mediada por fluxo (FMD) da artéria braquial em 641 participantes do Estudo do Coração de Intervenção do Fenótipo e Hereditariedade (HAPI). Em uma tentativa de definir melhor o papel de PEAR1 na biologia cardiovascular, usamos uma abordagem de bioinformática chamada GAMMA (Global Microarray Meta-Analysis) [12] para identificar genes consistentemente correlacionados com PEAR1 expressão em 75.000 experimentos humanos de microarray de uma cor de dentro dos conjuntos de dados disponíveis publicamente no National Center for Biotechnology Information & # x02019s Gene Expression Omnibus. Com base em nossos resultados de meta-análise e # x02019s, estendemos nossas descobertas avaliando e confirmando o efeito do PEAR1 variante rs12041331 na migração de células endoteliais usando ex vivo ensaios de células endoteliais da veia umbilical humana (HUVECs) derivadas de cordões umbilicais não identificados.


1. INTRODUÇÃO

As grandes melhorias na tecnologia de sequenciamento de DNA levaram, na última década, a cada vez mais genomas sendo sequenciados. A maioria dos genomas sequenciados contém um grande número de genes cuja função não pode ser inferida por meio de métodos convencionais de homologia, como BLAST, e a anotação da função desses genes tem sido auxiliada nos últimos anos pela produção de grandes conjuntos de dados de alto rendimento. Esses conjuntos de dados podem ser baseados em dados de sequência genômica usando métodos como a fusão de genes (Marcotte et al., 1999) e perfis filogenéticos (Pellegrini et al., 1999) ou podem ser derivados de métodos experimentais, como telas de dois híbridos de levedura e expressão de microarray (Troyanskaya et al., 2003). No entanto, esses conjuntos de dados costumam ser ruidosos e incompletos, o que muitas vezes pode levar a problemas de baixa confiabilidade e cobertura limitada quando os dados são usados ​​para prever a função do gene. Para resolver esses problemas, vários programas de previsão de função gênica foram produzidos que combinam vários conjuntos de dados usando técnicas de aprendizado de máquina para criar previsões sinérgicas, consulte a revisão de MouseFunc para exemplos (Pena-Castillo et al., 2008).

A maioria desses programas depende de uma abordagem de "culpa por associação", em que a função de uma proteína de consulta é inferida a partir de proteínas anotadas com atributos biológicos "semelhantes". Muitas abordagens diferentes foram adotadas, mas elas podem ser efetivamente divididas em métodos de aprendizagem supervisionados ou não supervisionados. Com uma abordagem supervisionada, um conjunto de dados de treinamento é criado a partir do qual um algoritmo aprende um conjunto de regras que podem ser usadas para prever a anotação mais provável de um gene ausente do conjunto de treinamento. Como alternativa, uma abordagem não supervisionada pode ser adotada, onde os dados são separados em vários clusters. Em seguida, para cada cluster, um teste estatístico é aplicado para ver se um cluster está super-representado com uma anotação específica.

As funções podem ser definidas usando vários bancos de dados diferentes, mas o mais popular é o Gene Ontology (GO Ashburner et al., 2000). O banco de dados GO é estruturado como um gráfico acíclico direcionado, no qual os termos formam uma hierarquia onde termos GO mais específicos também herdam os termos mais gerais acima deles. As primeiras tentativas de predição da função gênica frequentemente negligenciaram esses altos níveis de similaridade entre os termos, mas, mais recentemente, os programas tentaram resolver esse problema, particularmente pela inclusão de medidas de similaridade semântica. Infelizmente, todos esses programas têm desvantagens. Tao et al. (2007) só pode produzir previsões para genes que já possuem uma anotação, enquanto Yu et al. (2005) e Pandey et al. (2009) usam uma medida de similaridade semântica, mas apenas com uma medida relativamente simples Kabordagem de classificador do vizinho mais próximo (KNN) e apenas usando dados de microarray e de interação proteína-proteína. Além disso, esses dois artigos se limitam a humanos e Saccharomyces cerevisaie, ambos os organismos que têm genomas relativamente bem anotados.

Programas de previsão da função gênica para organismos que são menos bem anotados, mas têm efeitos significativos em humanos, como o agente causador da forma mais mortal de malária Plasmodium falciparum, São poucos. A anotação esparsa de tais genomas e, portanto, a falta de dados de treinamento torna a previsão da função do gene mais desafiadora. Portanto, neste artigo, reunimos uma coleção grande e díspar de conjuntos de dados para P.falciparum e apresentar um novo método para a previsão da função do gene que tenta resolver este problema. Nosso programa contém três etapas: (i) agrupamento de genes usando uma medida de similaridade semântica em agrupamentos funcionais (ii) cálculo da probabilidade de que um par de genes pertença ao mesmo agrupamento funcional usando um classificador de Bayes (iii) usando essas probabilidades, empregamos um algoritmo de análise de enriquecimento para prever a função do gene. Chamamos esse programa de PAGODA (Protein Assignment by Gene Ontology Data Associations).


ATUALIZAÇÕES DE CONTEÚDO DE DADOS

Conjuntos de dados disponíveis

BloodSpot é um banco de dados de expressão de mRNA em hematopoiese saudável e maligna e inclui dados de humanos e camundongos. O banco de dados é subdividido em vários conjuntos de dados, cada um acessível para navegação na nova interface. Os conjuntos de dados são organizados por organismo de origem e estado da doença. Os conjuntos de dados são organizados da seguinte forma: primeiro, células hematopoiéticas humanas saudáveis, em seguida, leucemia humana e, finalmente, células hematopoiéticas de camundongo saudáveis. BloodSpot contém os conjuntos de dados de nosso HemaExplorer (3) anterior, bem como novos conjuntos de dados publicados, todos processados ​​manualmente conforme descrito no Rapin et al. (10). Todos os conjuntos de dados disponíveis no BloodSpot foram gerados usando chips microarray de oligonucleotídeo, exceto para um conjunto de dados de camundongo que foi gerado usando tecnologia de sequenciamento de RNA. Para completar, a base de dados também inclui o conteúdo de outras bases de dados online que consideramos relevantes para o estudo da hematopoiese no âmbito do BloodSpot. Essas bases de dados externas incluem o Mapa de Diferenciação (DMAP) (2) e o projeto Genoma Imunológico (ImmGen) (1).

No total, a plataforma abrange mais de 5000 amostras (consulte as Tabelas 1–3). Todos os conjuntos de dados foram controlados quanto à qualidade, apropriadamente normalizados e ajustados para efeitos de lote quando necessário (11, 12).

Conjuntos de dados para hematopoiese normal

Conjunto de dados. Organismo . Fonte . Números de amostra. Tipos de células. Referência
Hematopoiese normal com AMLs Humano GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM precoce, PM tardio, MY, MM, BC, PMN Rapin et al. ( 20)
Hematopoiese normal (HemaExplorer) Humano GSE17054 2 HSC Majeti et al. ( 21)
Hematopoiese normal (HemaExplorer) Humano GSE19599 4 GMP, MEP Andersson et al. ( 22)
Hematopoiese normal (HemaExplorer) Humano GSE11864 2 Monócitos Hu et al. ( 23)
Hematopoiese normal (HemaExplorer) Humano E-MEXP-1242 2 Monócitos Wildenberg et al. ( 24)
Hematopoiese normal (DMAP) Humano GSE24759 211 Hematopoiese normal Novershtern et al. ( 2)
Sistema hematopoiético normal de camundongo Mouse GSE14833, GSE6506 67 Hematopoiese normal Di Tullio et al. (25), Chambers et al. ( 26)
Conjuntos de dados ImmGen Mouse GSE15907 & gt700 Hematopoiese normal Ref (1, 27-29)
Conjunto de dados. Organismo . Fonte . Números de amostra. Tipos de células. Referência
Hematopoiese normal com AMLs Humano GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM precoce, PM tardio, MY, MM, BC, PMN Rapin et al. ( 20)
Hematopoiese normal (HemaExplorer) Humano GSE17054 2 HSC Majeti et al. ( 21)
Hematopoiese normal (HemaExplorer) Humano GSE19599 4 GMP, MEP Andersson et al. ( 22)
Hematopoiese normal (HemaExplorer) Humano GSE11864 2 Monócitos Hu et al. ( 23)
Hematopoiese normal (HemaExplorer) Humano E-MEXP-1242 2 Monócitos Wildenberg et al. ( 24)
Hematopoiese normal (DMAP) Humano GSE24759 211 Hematopoiese normal Novershtern et al. ( 2)
Sistema hematopoiético normal de camundongo Mouse GSE14833, GSE6506 67 Hematopoiese normal Di Tullio et al. (25), Chambers et al. ( 26)
Conjuntos de dados ImmGen Mouse GSE15907 & gt700 Hematopoiese normal Ref (1, 27-29)
Conjunto de dados. Organismo . Fonte . Números de amostra. Tipos de células. Referência
Hematopoiese normal com AMLs Humano GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM precoce, PM tardio, MY, MM, BC, PMN Rapin et al. ( 20)
Hematopoiese normal (HemaExplorer) Humano GSE17054 2 HSC Majeti et al. ( 21)
Hematopoiese normal (HemaExplorer) Humano GSE19599 4 GMP, MEP Andersson et al. ( 22)
Hematopoiese normal (HemaExplorer) Humano GSE11864 2 Monócitos Hu et al. ( 23)
Hematopoiese normal (HemaExplorer) Humano E-MEXP-1242 2 Monócitos Wildenberg et al. ( 24)
Hematopoiese normal (DMAP) Humano GSE24759 211 Hematopoiese normal Novershtern et al. ( 2)
Sistema hematopoiético normal de camundongo Mouse GSE14833, GSE6506 67 Hematopoiese normal Di Tullio et al. (25), Chambers et al. ( 26)
Conjuntos de dados ImmGen Mouse GSE15907 & gt700 Hematopoiese normal Ref (1, 27-29)
Conjunto de dados. Organismo . Fonte . Números de amostra. Tipos de células. Referência
Hematopoiese normal com AMLs Humano GSE42519 34 HSC, MPP, CMP, MEP, GMP, PM precoce, PM tardio, MY, MM, BC, PMN Rapin et al. ( 20)
Hematopoiese normal (HemaExplorer) Humano GSE17054 2 HSC Majeti et al. ( 21)
Hematopoiese normal (HemaExplorer) Humano GSE19599 4 GMP, MEP Andersson et al. ( 22)
Hematopoiese normal (HemaExplorer) Humano GSE11864 2 Monócitos Hu et al. ( 23)
Hematopoiese normal (HemaExplorer) Humano E-MEXP-1242 2 Monócitos Wildenberg et al. ( 24)
Hematopoiese normal (DMAP) Humano GSE24759 211 Hematopoiese normal Novershtern et al. ( 2)
Sistema hematopoiético normal de camundongo Mouse GSE14833, GSE6506 67 Hematopoiese normal Di Tullio et al. (25), Chambers et al. ( 26)
Conjuntos de dados ImmGen Mouse GSE15907 & gt700 Hematopoiese normal Ref (1, 27-29)

Conjuntos de dados para pacientes leucêmicos

Conjunto de dados. Organismo . Fonte . Números de pacientes. Tipos de células. Referência
Conjuntos de dados de cariótipo normal de AML AML humano GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Conjuntos de dados AML TCGA AML humano TCGA 183 Várias aberrações genéticas, incluindo t (821), inv (16), t (1517), t (11q23), cariótipo complexo, WBM TCGA (9)
Leucemia estudo MILE AML humana, ALL, CML, CLL e MDS GSE13159 2096 LMA, LLA e estágios pré-leucêmicos. Haferlach et al. ( 29, 30)
AML versus normal AML humana GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bloodpool AML humano GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalmente AML, ALL e estágios pré-leucêmicos. todas as referências acima
Conjunto de dados. Organismo . Fonte . Números de pacientes. Tipos de células. Referência
Conjuntos de dados de cariótipo normal de AML AML humana GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Conjuntos de dados AML TCGA AML humana TCGA 183 Várias aberrações genéticas, incluindo t (821), inv (16), t (1517), t (11q23), cariótipo complexo, WBM TCGA (9)
Leucemia estudo MILE AML humana, ALL, CML, CLL e MDS GSE13159 2096 LMA, LLA e estágios pré-leucêmicos. Haferlach et al. ( 29, 30)
AML versus normal AML humano GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bloodpool AML humana GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalmente AML, ALL e estágios pré-leucêmicos. todas as referências acima
Conjunto de dados. Organismo . Fonte . Números de pacientes. Tipos de células. Referência
Conjuntos de dados de cariótipo normal de AML AML humana GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Conjuntos de dados AML TCGA AML humano TCGA 183 Várias aberrações genéticas, incluindo t (821), inv (16), t (1517), t (11q23), cariótipo complexo, WBM TCGA (9)
Leucemia estudo MILE AML humana, ALL, CML, CLL e MDS GSE13159 2096 LMA, LLA e estágios pré-leucêmicos. Haferlach et al. ( 29, 30)
AML versus normal AML humano GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bloodpool AML humano GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalmente AML, ALL e estágios pré-leucêmicos. todas as referências acima
Conjunto de dados. Organismo . Fonte . Números de pacientes. Tipos de células. Referência
Conjuntos de dados de cariótipo normal de AML AML humano GSE15434 251 NK-AML, WBM Kohlman et al. ( 28)
Conjuntos de dados AML TCGA AML humano TCGA 183 Várias aberrações genéticas, incluindo t (821), inv (16), t (1517), t (11q23), cariótipo complexo, WBM TCGA (9)
Leucemia estudo MILE AML humana, ALL, CML, CLL e MDS GSE13159 2096 LMA, LLA e estágios pré-leucêmicos. Haferlach et al. ( 29, 30)
AML versus normal AML humano GSE6891, GSE13159 91 NK-AML, WBM de Jonge et al. ( 31, 32)
251
Bloodpool AML humana GSE13159, GSE15434, TCGA, GSE61804, GSE14468 2076 Principalmente AML, ALL e estágios pré-leucêmicos. todas as referências acima

Visão geral do conjunto de dados

Conjunto de dados. Recursos . Amostras. Método de normalização.
Leucemia estudo MILE 67191 2095 1
Hematopoiese humana normal com AMLs 67191 296 1,7
Populações-chave Immgen 47273 256 2
AML versus normal 67191 252 3
Conjunto de dados AML TCGA 67191 244 1
Conjunto de dados AML TCGA versus normal 67191 244 3
AML Cariótipo Normal 54675 234 1
AML Cariótipo normal versus normal 67191 234 3
Hematopoiese humana normal (DMAP) 35459 211 4
Células Immgen abT 47273 190 2
Células Immgen Dentritic 47273 151 2
Neutrófilos de monócitos Immgen MFs 47273 114 2
Células B Immgen 47273 103 2
Hematopoiese humana normal (HemaExplorer) 57270 77 5
Células Immgen gdT 47273 76 2
Células-tronco e progenitoras Immgen 47273 76 2
Sistema hematopoiético normal de camundongo 57613 67 4
Células T ativadas Immgen 47273 55 2
Células Immgen NK 47273 47 2
Células estromais Immgen 47273 39 2
Rato normal (RNA seq) 45426 52 6
BloodPool 67191 2120 1,7
BloodPool versus normal 67191 2076 3,7
Conjunto de dados. Recursos . Amostras. Método de normalização.
Leucemia estudo MILE 67191 2095 1
Hematopoiese humana normal com AMLs 67191 296 1,7
Populações-chave Immgen 47273 256 2
AML versus normal 67191 252 3
Conjunto de dados AML TCGA 67191 244 1
Conjunto de dados AML TCGA versus normal 67191 244 3
AML Cariótipo Normal 54675 234 1
AML Cariótipo normal versus normal 67191 234 3
Hematopoiese humana normal (DMAP) 35459 211 4
Células Immgen abT 47273 190 2
Células Immgen Dentritic 47273 151 2
Neutrófilos de monócitos Immgen MFs 47273 114 2
Células B Immgen 47273 103 2
Hematopoiese humana normal (HemaExplorer) 57270 77 5
Células Immgen gdT 47273 76 2
Células-tronco e progenitoras Immgen 47273 76 2
Sistema hematopoiético normal de camundongo 57613 67 4
Células T Ativadas Immgen 47273 55 2
Células Immgen NK 47273 47 2
Células estromais Immgen 47273 39 2
Rato normal (RNA seq) 45426 52 6
BloodPool 67191 2120 1,7
BloodPool versus normal 67191 2076 3,7

Legenda do método de normalização:

1 Cada amostra de câncer é normalizada junto com um conjunto de amostras de populações mieloides normais classificadas. Todas as amostras foram normalizadas usando RMA. A comparação dos valores de expressão gênica não é possível com outros conjuntos de dados no Bloodspot.

2 Todas as amostras dos conjuntos de dados ImmGen foram normalizadas junto com RMA. As amostras foram posteriormente atribuídas aos diferentes conjuntos de dados no BloodSpot. Isso significa que a comparação dos valores de expressão gênica é possível em todos os conjuntos de dados ImmGen.

3 Os dados são normalizados de acordo com Rapin et al. Resumidamente, cada amostra de câncer é normalizada juntamente com um conjunto de amostras de populações mieloides normais classificadas. Em seguida, usando um método baseado em PCA, as 5 amostras normais mais próximas da amostra de câncer são calculadas em média e esta amostra normal calculada é em seguida comparada com a amostra de câncer, permitindo o cálculo de alterações de dobramento de expressão de gene. Consulte Métodos Suplementares e Rapin et al. ( 10).

normalizado usando RMA. A comparação dos valores de expressão gênica não é possível com outros conjuntos de dados no Bloodspot.

Veja nosso trabalho anterior (Bagger et al. ( 3)).

6 Os dados foram processados ​​usando o pipeline bcbio nextgen RNA-seq. Os dados de contagem foram subsequentemente processados ​​com o método de transformação de estabilização de variância de DESeq2.

7 Os dados foram corrigidos em lote usando ComBat, considerando o número do estudo como lote.

Conjunto de dados. Recursos . Amostras. Método de normalização.
Leucemia estudo MILE 67191 2095 1
Hematopoiese humana normal com AMLs 67191 296 1,7
Populações-chave Immgen 47273 256 2
AML versus normal 67191 252 3
Conjunto de dados AML TCGA 67191 244 1
Conjunto de dados AML TCGA versus normal 67191 244 3
AML Cariótipo Normal 54675 234 1
AML Cariótipo normal versus normal 67191 234 3
Hematopoiese humana normal (DMAP) 35459 211 4
Células Immgen abT 47273 190 2
Células Immgen Dentritic 47273 151 2
Neutrófilos de monócitos Immgen MFs 47273 114 2
Células B Immgen 47273 103 2
Hematopoiese humana normal (HemaExplorer) 57270 77 5
Células Immgen gdT 47273 76 2
Células-tronco e progenitoras Immgen 47273 76 2
Sistema hematopoiético normal de camundongo 57613 67 4
Células T Ativadas Immgen 47273 55 2
Células Immgen NK 47273 47 2
Células estromais Immgen 47273 39 2
Rato normal (RNA seq) 45426 52 6
BloodPool 67191 2120 1,7
BloodPool versus normal 67191 2076 3,7
Conjunto de dados. Recursos . Amostras. Método de normalização.
Leucemia estudo MILE 67191 2095 1
Hematopoiese humana normal com AMLs 67191 296 1,7
Populações-chave Immgen 47273 256 2
AML versus normal 67191 252 3
Conjunto de dados AML TCGA 67191 244 1
Conjunto de dados AML TCGA versus normal 67191 244 3
AML Cariótipo Normal 54675 234 1
AML Cariótipo normal versus normal 67191 234 3
Hematopoiese humana normal (DMAP) 35459 211 4
Células Immgen abT 47273 190 2
Células Immgen Dentritic 47273 151 2
Neutrófilos de monócitos Immgen MFs 47273 114 2
Células B Immgen 47273 103 2
Hematopoiese humana normal (HemaExplorer) 57270 77 5
Células Immgen gdT 47273 76 2
Células-tronco e progenitoras Immgen 47273 76 2
Sistema hematopoiético normal de camundongo 57613 67 4
Células T Ativadas Immgen 47273 55 2
Células Immgen NK 47273 47 2
Células estromais Immgen 47273 39 2
Rato normal (RNA seq) 45426 52 6
BloodPool 67191 2120 1,7
BloodPool versus normal 67191 2076 3,7

Legenda do método de normalização:

1 Cada amostra de câncer é normalizada junto com um conjunto de amostras de populações mieloides normais classificadas. Todas as amostras foram normalizadas usando RMA. A comparação dos valores de expressão gênica não é possível com outros conjuntos de dados no Bloodspot.

2 Todas as amostras dos conjuntos de dados ImmGen foram normalizadas juntamente com RMA. As amostras foram posteriormente atribuídas aos diferentes conjuntos de dados no BloodSpot. Isso significa que a comparação dos valores de expressão gênica é possível em todos os conjuntos de dados ImmGen.

3 Os dados são normalizados de acordo com Rapin et al. Resumidamente, cada amostra de câncer é normalizada juntamente com um conjunto de amostras de populações mieloides normais classificadas. Em seguida, usando um método baseado em PCA, as 5 amostras normais mais próximas da amostra de câncer são calculadas em média e esta amostra normal calculada é em seguida comparada com a amostra de câncer, permitindo o cálculo de alterações de dobramento de expressão de gene. Consulte Métodos Suplementares e Rapin et al. ( 10).

normalizado usando RMA. A comparação dos valores de expressão gênica não é possível com outros conjuntos de dados no Bloodspot.

Veja nosso trabalho anterior (Bagger et al. ( 3)).

6 Os dados foram processados ​​usando o pipeline bcbio nextgen RNA-seq. Os dados de contagem foram subsequentemente processados ​​com o método de transformação de estabilização de variância de DESeq2.

7 Os dados foram corrigidos em lote usando ComBat, considerando o número do estudo como lote.

BloodPool

Um novo recurso do BloodSpot é o BloodPool, um conjunto de dados agregado e integrado que agrupa os resultados de vários estudos com foco em AML. Por meio de nossos métodos de correção de lote, este conjunto de dados pode ser usado para estudar a expressão gênica (programas) em AML em comparação com células saudáveis ​​correspondentes (ver Figura 1). Usando o método computacional desenvolvido em Rapin et al. (10), também calculamos as mudanças de dobra da expressão gênica em relação às suas contrapartes normais mais próximas para todos os perfis de AML em BloodPool. O BloodPool está disponível para navegação no BloodSpot e pode ser selecionado como qualquer um dos outros conjuntos de dados disponíveis.

Gráfico de análise de componente principal (PCA) de amostras de BloodPool. (UMA) antes da correção do lote, (B) após a correção do lote. Os lotes são coloridos por estudo de origem.

Gráfico de análise de componente principal (PCA) de amostras de BloodPool. (UMA) antes da correção do lote, (B) após a correção do lote. Os lotes são coloridos por estudo de origem.

Integração de assinaturas gênicas MSigDB e CMAP

Coletamos todas as assinaturas gênicas disponíveis no Banco de Dados de Assinaturas Moleculares (MSigDB) (13) (versão 4.0) (http://www.broadinstitute.org/gsea/msigdb/) e calculamos, para cada assinatura, os valores médios de expressão para todos amostras em todos os conjuntos de dados. Esses valores médios resumem a expressão de uma assinatura para cada amostra. As assinaturas do mapa de conectividade (CMAP) (13) foram geradas com a matriz de classificação fornecida pelo banco de dados. Para cada combinação de composto e concentração, relatamos os 500 genes superiores e inferiores e assinamos os genes produzidos. Os dados exibidos no BloodSpot representam o valor médio de todos os genes em uma determinada assinatura.

Normalização de dados

Todos os dados foram normalizados e corrigidos em lote para eliminar potenciais efeitos de lote de laboratório. Para isso, realizamos a normalização Robust Multi-array Average (RMA) (14) de todos os arquivos de dados microarray .CEL particionados por origem, e em seguida aplicamos o ComBat (http://jlab.byu.edu/ComBat/) (12) um empírico Método Bayes implementado na linguagem R. Os lotes foram definidos para ser o nome / número do estudo, enquanto as covariáveis ​​foram atribuídas ao tipo de célula relevante. Os bancos de dados integrados de expressão gênica resultantes podem ser visualizados diretamente ou comparados a amostras externas fornecidas pelo usuário. Consulte as Tabelas 1–3 para uma visão geral dos dados apresentados no BloodSpot e o procedimento de normalização usado. Todos os conjuntos de dados AML disponíveis no BloodSpot são normalizados de acordo com Rapin et al. (10) e mais lotes corrigidos usando ComBat quando necessário. Este esquema de processamento garante que as amostras sejam normalizadas no contexto da hematopoiese normal e de acordo com métodos de correção de lote de última geração, independentemente da origem dos dados.

Para dados de RNA-seq, usamos o pipeline de RNA-seq de Bioinformática Blue Collar (mapeamento no genoma de camundongo mm10 com TopHat versão 2 (15), (https://bcbio-nextgen.readthedocs.org/)) para obter dados de contagem normalizados de arquivos fastq brutos de Lara-Astiaso et al. (16). Nós relatamos dados de contagem processados ​​usando o método de transformação de estabilização de variância do pacote DESeq2 (17).

Abreviações e anotações de amostra

Abreviações para todos os tipos de células podem ser encontradas abaixo do gráfico clicando no link ‘Abreviações’. Normalmente, o usuário pode encontrar informações mais detalhadas sobre cada tipo de célula, como um nome mais longo e informativo e, para conjuntos de dados de células saudáveis, o imunofenótipo, quando disponível. Links para os dados brutos não processados ​​também podem ser encontrados aqui.

Genes disponíveis

O servidor é restrito aos genes encontrados em nosso banco de dados de Affymetrix Human 133U plus 2, chips Affymetrix Human 133UA e Affymetrix Human 133UB para humanos e GeneChip Mouse Genome 430 2.0 e Affymetrix Mouse Gene 1.0 ST Arrays para camundongos. Para o conjunto de dados RNA-seq, a anotação UCSC para o genoma mm10 foi usada.

Para lidar com apelidos de genes, um dicionário de apelidos de genes foi construído a partir do NCBI ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/ e The HUGO Gene Nomenclature Committee (HGNC) www.genenames.org. Aliases de genes ambíguos não foram incluídos na construção do dicionário. A conversão de alias é usada apenas quando a consulta não é um símbolo de gene oficial ou nome de sonda. O resultado final permite maior flexibilidade em relação à entrada de nomes de genes e navegação mais rápida.


RESULTADOS

Executando análise de enriquecimento da via de sinalização

Com base nas ideias anteriores (2), desenvolvemos um banco de dados e um serviço web para realizar a análise de enriquecimento da via de sinalização. A base desta análise de enriquecimento é uma base de dados de assinaturas específicas da via. O foco deste banco de dados são as vias de sinalização que são acionadas por estímulos extracelulares, como hormônios, receptores ou estresses externos. Para compilar esta base de dados, compilamos manualmente conjuntos de dados de expressão gênica onde as vias foram perturbadas e as mudanças na expressão gênica foram medidas logo depois. Selecionamos manualmente as vias para as quais encontramos um maior número de experimentos de perturbação apropriados (≥10). Esta base de dados consiste em listas de genes classificados para cada uma das 16 vias de sinalização distintas, cada uma derivada de múltiplos conjuntos de dados de perturbação (entre 10 e 113) com leitura do transcriptoma (cf. Figura 1, canto inferior esquerdo). Resumidamente, pontuamos genes regulados para cima e para baixo de forma consistente após a perturbação da via. As listas classificadas contêm os genes regulados positivamente mais significativamente, conforme determinado por P-valor, em uma extremidade da lista, e os genes mais significativamente regulados para baixo mapeados para a outra extremidade (consulte Materiais e Métodos). Posteriormente, as classificações foram convertidas em pontuações de uma distribuição uniforme entre -1 e 1, onde o sinal denota regulação para baixo e para cima, respectivamente.

Visão geral da aplicação SPEED2 Selecionamos manualmente experimentos de perturbação específicos da via e estimamos sua relevância para a via. Para cada experimento z-scores são mapeados em uma escala entre -1 e 1 (Zrank) e a significância foi afirmada por gene e via testando os Zranks contra um modelo nulo uniforme (p) e corrigido para testes múltiplos (q) Essas medidas de significância específicas da via (junto com sua direção de regulação) agora são usadas para avaliar uma lista de genes fornecida pelo usuário para dois aspectos: (i) teste de enriquecimento da via por desvio da média uniforme (teste de Bates) ou variância uniforme (χ 2 var test) em P-rank ordenou assinaturas de vias contínuas e (ii) filtrar a lista de genes para representantes de vias classificados por q-valor (veja o texto principal). O primeiro resultado dá indicações de sinalização a montante que pode ter causado a alteração da expressão do gene e o segundo resultado fornece genes candidatos para, e. realizar investigações de acompanhamento. Ilustramos essas saídas de SPEED2 em uma lista de alvos MAPK bem definida de Uhlitz et al. ( 4).

Visão geral da aplicação SPEED2 Selecionamos manualmente experimentos de perturbação específicos da via e estimamos sua relevância para a via. Para cada experimento z-scores são mapeados em uma escala entre -1 e 1 (Zrank) e a significância foi afirmada por gene e via testando os Zranks contra um modelo nulo uniforme (p) e corrigido para vários testes (q) Essas medidas de significância específicas da via (junto com sua direção de regulação) agora são usadas para avaliar uma lista de genes fornecida pelo usuário para dois aspectos: (i) teste de enriquecimento da via por desvio da média uniforme (teste de Bates) ou variância uniforme (χ 2 var test) em P-rank ordenou assinaturas de vias contínuas e (ii) filtrar a lista de genes para representantes de vias classificados por q-valor (veja o texto principal). O primeiro resultado dá indicações de sinalização a montante que pode ter causado a alteração da expressão do gene e o segundo resultado fornece genes candidatos para, e. realizar investigações de acompanhamento. Ilustramos essas saídas de SPEED2 em uma lista de alvos MAPK bem definida de Uhlitz et al. ( 4).

No site do SPEED2, os usuários podem inserir listas de genes de interesse, por exemplo, genes humanos diferencialmente expressos como símbolos de genes ou Entrez Gene IDs, e o SPEED2 quantifica se esses genes são enriquecidos para genes de assinatura fortemente desregulados por via (ver Figura 1, canto superior direito). Para determinar o enriquecimento da assinatura da via, o SPEED2 oferece duas opções que devem ser escolhidas de acordo com a pergunta. Se a lista de genes contém genes regulados para cima ou para baixo, pode-se escolher o teste de Bates que quantifica a mudança na classificação média. Em contraste, se a lista de genes fornecidos pelo usuário contém genes regulados tanto para cima quanto para baixo, o teste χ 2 aproximado é mais apropriado, pois tem uma pontuação elevada se os genes fornecidos estão se acumulando em ambas as extremidades da distribuição. Na maioria dos casos, o teste de Bates é mais poderoso, no entanto, se o usuário fornecer uma lista de genes com cerca de um número igual de genes regulados para cima e para baixo, um cenário que pode ser identificado por meio da visualização do 'código de barras' em VELOCIDADE2, é recomendo usar o teste do χ 2. Nas Figuras Suplementares S1 - S3 comparamos o teste de Bates, o teste χ 2 e o GSEA (7), sem nenhuma vantagem óbvia da última abordagem (8).

Quando a análise é concluída, os resultados são relatados para cada caminho como um gráfico de barras denotando a classificação média da lista de consulta, bem como um gráfico de 'código de barras', mostrando a distribuição dos genes de consulta nas assinaturas classificadas (ver Figura 1) . As cores mostram FDR ajustado P-valores. Além da visualização do enriquecimento, o site oferece o download dos resultados em arquivo de valores separados por vírgula (.csv), permitindo análises posteriores. Além disso, o site apresenta uma tabela contendo todos os genes de assinatura significativos para cada caminho que se sobrepõe aos genes de consulta. Esta tabela pode ser explorada interativamente ou também baixada como arquivo .csv.

Caracterização de assinatura

To benchmark SPEED2, we derived 45 independent gene lists for 8 different pathways based on data, not used to generate SPEED2 signatures ( Supplementary File 1 ). For each of these test sets, we determined if the list contained only up- or down-regulated genes, or generally contained target genes irrespective of the direction of regulation by the pathway. We then performed SPEED2 analysis on these lists, using the appropriate statistics (Bates for lists of up- or down-regulated genes, χ 2 for lists containing both up- and down-regulated genes). We marked the number of times the correct pathway was the first, second or third most enriched pathway in SPEED2 and found in 56% of cases the upstream stimuli was ranked first, and in 87% of cases within the top 3 predictions (Figure 2A, left).

Signature characterization. (UMA) Number of times that regulated pathways of externally curated data sets (total number of benchmarks per pathway in brackets) occurred in the top 3 most enriched pathways in SPEED2 analysis contrasted to the top ranking of the best assigned signalling pathway signatures from the Hallmarks collection using Fisher’s exact test (Hippo and IL-1 were not scored as no signalling Hallmark could be assigned). (B) Spearman correlation of mutually significant genes (P < 0.05) indicates three general signalling groups. (C) Scoring of Broad Hallmark signatures by SPEED2 with at least one pathway being more significant than adjusted P < 0.001 colors indicate row-scaled adjusted P-value (before scaling sign was set to 1 and –1 for up and down-regulation, respectively), see also Supplementary Figure S1 .

Signature characterization. (UMA) Number of times that regulated pathways of externally curated data sets (total number of benchmarks per pathway in brackets) occurred in the top 3 most enriched pathways in SPEED2 analysis contrasted to the top ranking of the best assigned signalling pathway signatures from the Hallmarks collection using Fisher’s exact test (Hippo and IL-1 were not scored as no signalling Hallmark could be assigned). (B) Spearman correlation of mutually significant genes (P < 0.05) indicates three general signalling groups. (C) Scoring of Broad Hallmark signatures by SPEED2 with at least one pathway being more significant than adjusted P < 0.001 colors indicate row-scaled adjusted P-value (before scaling sign was set to 1 and –1 for up and down-regulation, respectively), see also Supplementary Figure S1 .

Next to independent gene sets we also conducted an analysis for each single experiment of the SPEED2 database for both methods ( Supplementary Figures S4 and S5 ). On average we find similar scoring metrics for the first three ranks as in the independent testset benchmark. We further investigated the dependency on input size and found both scoring methods to be largely robust to input size, with slightly worse performances for small (<50) and large gene sets (>450). Therefore for optimal performance we recommend as input a list of 100–400 genes and have limited the input size to 500. We further noted that on average the Bates test performed slighty better on those benchmarks than the χ 2 test prompting us to suggest the Bates test as the default test on the website.

Due to extensive cross-talk between signalling pathways, stimuli often cross-activate multiple pathways, and thus appearance of multiple top pathways are expected. When visualizing Spearman correlation for mutually significant genes (P < 0.05) across pathway-pairs (Figure 2B), we confirmed that several signatures are highly correlated, with particularly strong correlation between the IL-1, TNFa and TLR pathways.

To further characterize our gene signatures we analysed the MSigDB Hallmark sets with SPEED2 (using the Bates test) finding a substantial agreement for the IL-1, JAK-STAT, TNFa, TLR pathway family, as well as Estrogen, Hypoxia, TGFb and p53 (Figure 2C). For certain other pathways, like Wnt, Notch or MAPK/KRAS, there was little or no agreement between the assigned signatures. This finding is further corroborated, when we performed enrichment analysis on our independent test sets using the MSigDB Hallmark sets ( 2A, right). We found that enrichment using the signalling-related Hallmark sets generally performed less well compared to SPEED2, particularly for those signatures where SPEED2 and Hallmark signatures diverge, suggesting that SPEED2 signatures are more potent to score signalling pathway deregulation.

To further compare our tool with existing tools and databases we applied our benchmarks on the comprehensive geneset database collection of the Enrichr webtool ( 9). When scoring the top 4 performing databases representing pathway enrichment: Bioplanet 2019 ( 10), WikiPathways 2019 Human ( 11), KEGG 2019 Human ( 12) and Panther 2016 ( 13), we note that each tool individually is outperformed by SPEED2 ( Supplementary Figure S6 ). In contrast to SPEED2 those top 4 scoring pathway databases predominantly contain genes encoding for proteins that are important in the signalling relay of the pathway and have little information on downstream transcriptional targets. This indicates that in order to next to pathway membership also encompass causal upstream signalling SPEED2 might be a useful addition to consider for the Enrichr suite.


The authors have no conflict of interest to declare.

Figure S1. The shape of the vectors used to identify coexpressed genes in particular tissues or under particular treatments.

Figure S2. Information flow of the Cistome pipeline.

Figure S3. The distribution of maximum Z-statistic scores for 1000 random promoter sets for each program used in the Cistome pipeline.

Figure S4. The results of benchmarking of the Cistome prediction pipeline against synthetic data sets from yeast and Arabidopsis.

Figure S5. The vector maps of the plasmids used to generate transgenic lines for in planta validation.

Figure S6. GUS expression patterns of synthetic and native ‘epidermal’ motif lines.

Figure S7. GUS expression of synthetic ‘root’ motif lines.

Table S1. Samples used for custom bait generation.

Table S2. The number of transcripts found using the ‘custom baits’ from Table S1.

Tables S3 and S4. The actual promoter set lists generated for tissues and abiotic/hormone responses.

Table S5. The putative promoter cis-element sequences we discovered with the Cistome pipeline that used for follow-up in planta validation.

Tables S6 and S7. The oligonucleotides used to amplify ‘native’ promoters and to generate synthetic promoters containing multiple copies of a predicted cis-elemento.

Methods S1. Describes how we benchmarked the pipeline.

Methods S2. Describes additional experiments not shown in the main text.

Methods S3. File regarding our approach for exhaustive pattern enumeration and significance assessment.

Observação: O editor não é responsável pelo conteúdo ou funcionalidade de qualquer informação de suporte fornecida pelos autores. Quaisquer dúvidas (que não sejam de conteúdo ausente) devem ser direcionadas ao autor correspondente do artigo.


Introdução

The emergence of system-wide approaches (‘-omics’ e.g., genomics, proteomics, metabolomics, etc.) and related technologies to quantify molecular changes that accompany biological processes or disease states has resulted in an explosion in the amount of data collected by researchers. Investigators across all areas of biology have designed large scale experiments to capture a broader systems-based understanding of gene or protein expression changes that accompany their process of interest. However, many have found that such datasets are too large to be immediately informative, and extracting useful information from these datasets is dependent upon additional analysis.

One strategy to analyze such data is to generate gene network models using one of several analytical frameworks [1]–[5]. In theory, these network approaches have two advantages: they should accelerate the rate of novel discoveries by automating data analysis and they should be more immune to experimenter bias. This use of computational strategies will potentially lead to discoveries from omics data without a priori knowledge of the system. However, these computational approaches require a tremendous amount of biological data. For example, if an investigator wants to understand which genes function together during a particular developmental process, she might profile changes in gene expression over developmental time. Ideally the number of conditions (e.g., ages, experimental perturbations) under which gene expression is measured should be much larger than the number of genes being profiled in order to obtain an accurate estimate of the covariance matrix upon which the network of all genes is based [6]. Thus, for a microarray experiment that measures the expression of 5000 genes, one should measure the expression of each gene under more than 5000 different conditions. Even collection of 20% of the ideal amount of data for robust analyses is both time and cost prohibitive for most investigators. As a consequence, the majority of biologists collect datasets that are too small for effective computational analysis and too large for systematic and efficient consideration of candidate molecules. This data limbo is a limiting factor to the growth of the field of systems biology.

While it is essential that the development of computational tools and approaches continue, it is also essential that efforts are made to establish 𠆋iological heuristics’ that will allow benchtop investigators to perform meaningful analyses on the sometimes limited amounts of data they are capable of collecting. A key first step in this process is to consider the development of strategies to efficiently query omics data, as opposed to exhaustively analyzing it. The use of biological heuristics is a flexible strategy, which utilizes prior biological knowledge of the system to design queries. These queries ask specific questions about relatively small groups of interacting genes and return manageable numbers of candidate genes for further analysis at the bench.

Our approach to querying high-throughput data utilizes prior biological knowledge by starting with a ‘seed-network’ of genes, and is based on the paradigm that the expression of genes that function together will change in similar ways over time (i.e., their expression will be correlated). The basic assumption is that if a gene is correlated with one member of the seed network, it may be involved in the process of interest however, if the same gene is correlated with multiple members of the seed-network it much more likely to be involved in that process (e.g., retinal cell fate determination). One of us has demonstrated previous success identifying gene candidates in development of rod photoreceptors by using a seed-network-based heuristic to query high throughput data [7], and this success motivated our efforts to further develop strategies to identify effective seed networks to query large datasets.

Here we employ our seed-network approach to a genetic comparison of two important models in the study of retinal development: the fly, Drosophila melanogaster, and the mouse, Mus musculus. Despite the morphological and developmental disparity of the fly compound eye [8], [9] and the mouse camera-type eye [10], [11], gene conservation during both fly and mouse retinal development is well-documented [12]–[16] and there is an implicit assumption of gene regulatory network conservation as well [17], [18]. However the networks are not completely congruent [19]. We test the hypothesis that gene relationships established in the developing fly retina can be identified in correlation networks generated using gene expression data from the developing mouse retina. Further, we hypothesize that the resulting mouse network will be an effective tool to discover candidate genes and gene networks that function during mammalian retinal development. In this report, we take advantage of two biological systems by constructing a 𠆌omparative seed-network’ based on studies of retinal determination in fly and use it to query gene expression data from the developing mouse retina. Our study was guided by three objectives: 1) to construct a literature-based seed network representing the relationships between genes involved in retinal determination in the fly 2) to determine whether the network relationships of fly genes are identifiable among homologous mouse genes in expression correlation networks generated from the developing mouse retina and 3) to assess whether this strategy, based on evolutionary comparison between model organisms, is a useful method to identify biologically relevant candidate genes important in retinal determination. Based on these objectives, our results demonstrate successful application of this strategy within our experimental system and provide a clear framework to evaluate this approach in other biological areas.


Introdução

H igh throughput genomics technologies , such as next generation DNA/RNA sequencing or microarray analyses, are frequently used during biomedical research, as well as in diagnostic and therapeutic product development. These generate large quantities of Big Data that require advanced bioinformatics analysis and interpretation. The key step towards translating these results into meaningful scientific discoveries is deduction of biological and clinical contexts from the generated data. In this realm, several methods and tools have been developed to interpret large sets of genes or proteins, using information available in biological databases. Prominent among these are gene set enrichment tools.

In conventional examples, the Gene Ontology database is used for the functional study of large scale genomics or transcriptomics data. Multiple applications such as GeneCodis, GOEAST, Gorilla, and Blast2GO (Conesa et al., 2005 Eden et al., 2009 Nogales-Cadenas et al., 2009 Zheng and Wang, 2008) can analyze and visualize statistical enrichment of GO terms in a given gene set. Other tools rely on popular data sources such as Kyoto Encyclopedia of Genes and Genomes (KEGG), TransPath, Online Mendelian Inheritance in Man (OMIM), and GeneCards to identify enriched pathways, diseases, and phenotypes (Backes et al., 2007 Huang da et al., 2009b Safran et al., 2010 Sherman et al., 2007 Stelzer et al., 2009 Zhang et al., 2005). These analysis tools differ in several respects, including statistical methodology, supported organisms and gene identifiers, coverage of functional categories, source databases, and user interface. The common result is the identification of known functional biological descriptors that are significantly enriched within the experimentally-derived gene list.

Enrichment of biological descriptors for a given set of genes introduces three immediate challenges: The first is determining the statistical significance of enrichment of each descriptor. There are several approaches to calculating the statistics for a descriptor shared among genes, such as Gene Set Enrichment Analysis [GSEA (Maezawa and Yoshimura, 1991)] and Fisher's exact test [Database for Annotation, Visualization and Integrated Discovery—DAVID (Dennis et al., 2003)]. Some tools, such as the DAVID functional annotation tool, initially cluster the descriptors belonging to similar categories, and then present a score for an enriched group of terms.

The second challenge is judicious use of multiple data sources. It is a nontrivial task to integrate and model information derived from various origins. In an example, disease information could be derived from data sources such as OMIM (Hamosh et al., 2005), SwissProt/UniProt (Wu et al., 2006), and Orphanet (Maiella et al., 2013), and pathway information—from Reactome (Jupe et al., 2014 Matthews et al., 2009) and/or KEGG (Kanehisa et al., 2010). Therefore many analysis tools present separate enrichment results for each data source, while others perform consolidated analysis on source types.

A third challenge is optimal data presentation. Tools such as DAVID group enriched terms by biological categories in an attempt to provide a general sense of the biological processes involved in the experimental results. Other tools, such as MSigDB (GSEA) (Liberzon et al., 2011) and GeneDecks Set Distiller (Stelzer et al., 2009), interlace biological descriptors of various kinds, based on their statistical enrichment strength, thus emphasizing the individual significance of each in the context of the general enriched descriptor list. It would be optimal to give both a birds-eye view of grouped descriptors for a given set of genes, as well as display the descriptors in detail.

Multiple data sources are generally employed for both broad and in-depth depictions of enrichment. A related challenge is to develop a straightforward and easy-to-use application, with intuitive output results, rendering the tool accessible to inexperienced users, with little or no bioinformatics background.

We present GeneAnalytics™ (geneanalytics.genecards.org), designed to distill enriched descriptors for a given gene set, while optimally addressing the aforementioned challenges. It is empowered by the GeneCards Suite, embodied as LifeMap's integrated knowledgebase, which automatically mines data from more than 120 data sources. GeneAnalytics' broad descriptor categories enable users to focus on areas of interest, each rich with annotation and supporting evidence. The GeneAnalytics analyses provide gene associations with tissues and cells types from LifeMap Discovery (LMD, discovery.lifemapsc.com), diseases from MalaCards, (www.malacards.org), as well as GO terms, pathways, phenotypes, and drug/compounds from GeneCards (www.genecards.org), (Fig. 1). Navigation within such comprehensive information, as well as further scrutiny, is facilitated by GeneAnalytics categorization and filtration tools.

FIGO. 1 GeneAnalytics structure. GeneAnalytics is powered by GeneCards, LifeMap Discovery, MalaCards, and PathCards, which integrate >100 data sources. These databases contain annotated gene lists for tissues and cells, diseases, pathways, compounds, and GO terms. GeneAnalytics compares the user's gene set to these compendia in search of the best matches. The output contains the best matched gene lists, scored and subdivided into their biological categories such as diseases or pathways. In the figure, each output category and its respective data source are marked with the same color.


E-58. Identification of genes with preferential expression in the egg cell

Köszegi D XE "Köszegi D" (1, *), Czhial A XE "Czhial A" (1), Kumlehn J XE "Kumlehn J" (1), Altschmied L XE "Altschmied L" (1), Baumlein H XE "Baumlein H" (1)

In contrast to animals, the life cycle of higher plants alternates between a gamete-producing (gametophyte) and a spore-producing generation (sporophyte). The angiosperm female gametophyte consists of four distinct cell types, including two gametes, the egg and the central cell, which give rise to embryo proper and the nutritive endosperm, respectively. To gain insights into the molecular basis of gamete differentiation and function, genes with preferential expression in egg and central cell need to be isolated.

Materiais e métodos

A combined subtractive hybridization and virtual subtraction approach was used to isolate egg cell specific genes from a wheat egg cell cDNA library. Using microarray hybridization and in silico subtraction, egg cell expressed genes of Arabidopsis were isolated from a transcription factor induced proliferating tissue, which exhibits an egg cell-like transcriptome.

Resultados

In total we have isolated seven and nine candidate genes with preferential expression in the wheat and Arabidopsis egg cell, respectively. Via single cell RT-PCR we confirm the preferential expression of three wheat genes. Transgenic Arabidopsis plants transformed with promoter:reporter constructs confirm egg cell specific promoter activity for four out of nine genes.

Discussão

We demonstrate the suitability of the combined subtractive approach for the isolation of gamete specific genes. The approach is broadly applicable also for other species. Isolation and characterization of genes with preferential expression in either gamete allow to unravel the regulatory network which controls specification and differentiation of these important cell types in plants.

David Köszegi ( This e-mail address is being protected from spambots. You need JavaScript enabled to view it )


Assista o vídeo: Sexo e Herança Genética (Janeiro 2022).