Em formação

G4. Predição da Estrutura da Proteína da Membrana - Biologia


Até agora, discutimos proteínas predominantemente globulares que são solúveis em água. Duas classes principais de proteínas de membrana são encontradas na natureza.

  • proteínas periféricas da membrana: proteínas solúveis em água que se ligam reversivelmente e não covalentemente à membrana por meio de atrações eletrostáticas entre grupos de cabeças polares carregadas dos fosfolipídios e da proteína. Essas proteínas podem frequentemente ser liberadas da membrana pela adição de alto teor de sal, uma vez que são frequentemente atraídas para a bicamada por interações eletrostáticas entre grupos de cabeças de fosfolipídios carregados e grupos polares / carregados na superfície da proteína.
  • proteínas integrais de membrana: realmente inseridas na bicamada. Estes podem ser liberados da membrana e efetivamente solubilizados pela adição de anfifílicos de cadeia simples (detergentes) que formam uma micela mista com a proteína integral da membrana. Detergentes não iônicos (Trition X-100, octilglucosídeo, etc.) são freqüentemente usados ​​na purificação de proteínas de membrana. Os detergentes iônicos (como o SDS) não só solubilizam as proteínas integrais da membrana, mas também as desnaturam.

Figura: Tipos de proteínas de membrana

Em algumas dessas proteínas integrais de membrana, grandes domínios extracelulares e intracelulares da proteína estão presentes, conectados pelas regiões intramembrana. A região de abrangência intramembrana geralmente consiste em uma única hélice alfa ou em 7 regiões helicoidais diferentes que ziguezagueiam através da membrana. Essas sequências transmembrana podem ser prontamente determinadas por meio de cálculos de hidropatia. Por exemplo, considere a proteína bovina de membrana integral rodopsina. Sua sequência de 348 aminoácidos (no código de uma única letra) é mostrada abaixo:

MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLY
VTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLG
GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIP
EGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQES
ATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAV
YNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA

Os cálculos do gráfico de hidropatia de rodopsina mostram que ele contém sete hélices transmembrana que se enrolam através da membrana de forma serpentina.

Figura: Gráfico de hidropatia de rodopsina


Figura: sete hélices transmembrana


Resultados da hidropatia por rodopsina

Não.Terminal Nregião transmembranaTerminal Cmodelocomprimento
140LAAYMFLLIMLGFPINFLTLYVT62PRIMÁRIO23
271PLNYILLNLAVADLFMVFGGFTT93SECUNDÁRIO23
3113EGFFATLGGEIALWSLVVLAIER135SECUNDÁRIO23
4156GVAFTWVMALACAAPPLVGWSRY178SECUNDÁRIO23
5207MFVVHFIIPLIVIFFCYGQLVFT229PRIMÁRIO23
6261FLICWLPYAGVAFYIFTHQGSDF283PRIMÁRIO23
7300VYNPVIYIMMNKQFRNCMVTTLC322SECUNDÁRIO23

Em resumo, os gráficos de hidropatia são, portanto, úteis para encontrar regiões ocultas em proteínas solúveis em água, hélices transmembrana em proteínas de membrana integral, bem como trechos curtos de aminoácidos polares / carregados que podem formar loops de superfície reconhecíveis por anticorpos do sistema imunológico. O tamanho da janela usado em gráficos de hidropatia obviamente afetaria os resultados calculados. Janelas de 20 aminoácidos são úteis para determinar hélices transmembrana, enquanto janelas de 5-7 aminoácidos são usadas para encontrar locais hidrofílicos expostos à superfície.

As proteínas da membrana podem ser solubilizadas pela adição de anfifílicos de cadeia simples (detergentes). As caudas apolares dos detergentes interagem com o domínio transmembranar hidrofóbico da proteína de membrana formando uma estrutura semelhante a micela "mista". Detergentes não iônicos como Triton X-100 e octil-glicosídeo são freqüentemente usados ​​para solubilizar proteínas de membrana em seu estado quase nativo. Em contraste, detergentes iônicos como dedecil sulfato de sódio (com um grupo de cabeça com carga negativa) desnaturam as proteínas durante o processo de solubilização. Para estudar as proteínas de membrana em um ambiente mais parecido com o nativo, as proteínas solubilizadas por detergente não iônico podem ser reconstituídas em estruturas de lipossoma de bicamada usando métodos semelhantes aos do Laboratório 1 em que você preparou grandes vesículas unilamelares encapsuladas com corante (LUVs). No entanto, pode ser difícil estudar os domínios intra e extracelulares de proteínas de membrana em lipossomas, visto que um desses domínios está escondido dentro do lipossoma. Uma nova técnica que remove essa barreira foi desenvolvida recentemente por Sligar. Ele criou um disco de proteína anfifílico com uma abertura no centro. A abertura interna é forrada com resíduos apolares, enquanto a superfície externa do disco é polar. Quando os discos foram adicionados aos fosfolipídios, pequenas bicamadas se formaram dentro do disco. Proteínas de membrana, como o receptor b-2 adrenérgico, podem ser reconstituídas nas bicamadas do nanodisco, permitindo a exposição ao solvente dos domínios intracelular e extracelular da proteína receptora.

Figura: Nanodisc com proteína de membrana

  • Escalas de hidropatia determinadas experimentalmente
  • Características estruturais da sequência de proteínas
  • Recursos de proteína de membrana
  • Proteínas de membrana de estrutura 3D conhecida
  • 57 diferentes preditores da escala de aminoácidos da ExPASy

G4. Predição da Estrutura da Proteína da Membrana - Biologia

Estruturas de DNA endógeno G-quadruplex (G4) foram detectadas em células humanas e mapeadas em DNA genômico e em um contexto de cromatina endógena adaptando abordagens de sequenciamento de próxima geração, para revelar paisagens G4 específicas de tipo celular e estado celular e um vínculo forte de G4s com transcrição elevada. Pequenas moléculas sintéticas e anticorpos projetados têm sido vitais para sondar a existência e funções do G4 nas células.

Foi constatado que várias proteínas endógenas interagem com DNA G4s, incluindo helicases, fatores de transcrição e remodelantes epigenéticos e de cromatina. Estudos estruturais e funcionais detalhados forneceram novos insights sobre as interações G4-proteína e revelaram um envolvimento potencial de G4s em uma variedade de processos biológicos.

Várias novas linhas de evidência sugerem que os G4s desempenham um papel no crescimento e progressão do câncer. Mais G4s são detectáveis ​​em estados de células cancerosas em comparação com o estado normal, tornando os G4s alvos altamente interessantes na descoberta de drogas. Estudos recentes começaram a explorar o potencial de letalidade sintética e modulação global da transcrição do gene do câncer.

As sequências de DNA ricas em guanina podem se dobrar em estruturas secundárias não canônicas de quatro fitas chamadas G-quadruplexes (G4s). G4s foram inicialmente considerados uma curiosidade estrutural, mas evidências recentes sugerem seu envolvimento em funções-chave do genoma, como transcrição, replicação, estabilidade do genoma e regulação epigenética, juntamente com inúmeras conexões com a biologia do câncer. Coletivamente, esses avanços têm estimulado pesquisas que sondam os mecanismos G4 e consequentes oportunidades de intervenção terapêutica. Aqui, fornecemos uma perspectiva sobre a estrutura e função de G4s com ênfase nas principais moléculas e avanços metodológicos que permitem o estudo das estruturas G4 em células humanas. Também examinamos criticamente as recentes percepções mecanicistas sobre a biologia G4 e os parceiros de interação de proteínas e destacamos as oportunidades para a descoberta de medicamentos.


G4. Predição da Estrutura da Proteína da Membrana - Biologia

Ajustando moléculas em mapas de densidade de elétrons de baixa resolução

Uma técnica crescente na determinação da estrutura da proteína é a microscopia crioeletrônica. Cryo-EM fornece mapas de densidade de elétrons de baixa resolução (

8 & Aringngstr & oumlm). À medida que esses dados se tornam mais precisos e você pode usar esses dados não apenas para determinar a estrutura geral dos complexos de proteínas, também para determinar os elementos da estrutura secundária e sua montagem na estrutura terciária de uma proteína. O campo de sucesso da predição da estrutura da proteína ab initio ca mais.

BCL :: Jufo: Predição Simultânea de Estrutura Secundária de Proteínas e Spans Trans-Membrana
Um primeiro passo para a previsão da estrutura terciária da proteína é a identificação dos elementos da estrutura secundária da sequência. Além disso, a identificação de extensões transmembranares é necessária para proteínas de membrana.

O objetivo deste projeto é prever simultaneamente a estrutura secundária e os vãos transmembranares com uma única ferramenta. A justificativa para esta abordagem é a hipótese de que ambos os fenômenos estão inter-relacionados: mais.

A pesquisa em nosso laboratório busca fundir esforços computacionais e experimentais para investigar proteínas, as moléculas fundamentais da biologia e suas interações com substratos de pequenas moléculas, terapêuticas ou sondas. Desenvolvemos métodos computacionais com três grandes ambições em mente.

A) Para permitir a elucidação da estrutura da proteína de proteínas de membrana, o alvo principal da maioria dos terapêuticos e grandes complexos macromoleculares, como vírus
B) Projetar proteínas com uma nova estrutura e / ou função para explorar novas abordagens para a terapêutica de proteínas e aprofundar nossa compreensão das vias de dobramento de proteínas.
C) Compreender quantitativamente a relação entre a estrutura química e a atividade biológica para conceber fármacos mais eficientes e específicos.

Crucial para nosso sucesso é a validação experimental de nossas abordagens computacionais que buscamos em nosso laboratório ou em colaboração com outros cientistas.

As aplicações de pesquisa atuais se concentram em novas abordagens para a) desenvolvimento de drogas e sondas para distúrbios e doenças neurodegenerativas, incluindo esquizofrenia, Alzheimer e Parkinson, b) compreensão dos determinantes estruturais da ligação do antidepressivo aos transportadores de neurotransmissores, c) arritmia cardíaca causada pela interação complexa de regulação do canal de potássio e interações medicamentosas, d) resistência a múltiplas drogas em células cancerígenas e bacterianas relacionadas a proteínas transportadoras de múltiplas drogas, ee) base estrutural de infecções virais e atividade de anticorpos.

Eli McDonald foi premiado com uma bolsa de aprimoramento de dissertação do Russell G. Hamilton Graduate Leadership Institute! O Instituto de Liderança de Pós-Graduação seleciona todos os anos alunos de doutorado de destaque e fornece US $ 2.000 para despesas de pesquisa.
Parabéns Eli!


Taylor Jones recebeu a Bolsa de Treinamento em Informática Biomédica T15 (financiado pelo NIEHS) para o ano de 2020-2021! 2020-05-19

Taylor Jones ingressará no Meiler Lab como estudante de graduação a partir de 1º de junho de 2020! A nomeação de bolsa de treinamento foi oferecida pelo Departamento de Informática Biomédica da Universidade de Vanderbilt e é fundada pelo NIEHS.

Parabéns Taylor e bem-vindo ao Meiler Lab!


Tiffany Alyssa Shields recebeu o Merck Index Award! 2020-04-23

O Merck Index Award é concedido anualmente a um graduado que se formou de forma excepcional e está cursando a faculdade de medicina ou pós-graduação.


Aodong Liu recebeu o Prêmio Thomas W. Martin! 2020-04-22

O Prêmio Thomas W. Martin foi estabelecido em 1993 em memória de Thomas W. Martin, professor de química na Vanderbilt de 1957 a 1991. Concedido anualmente a um graduando em química que se destacou em físico-química e planeja fazer pós-graduação em química.

Parabéns Aodong Liu!


Pranav Kodali recebeu o Prêmio de Melhor Pesquisador Júnior do Departamento de Bioquímica Aida Nureddin! 2020-04-15


Parabéns ao Dr. Meiler por seu cargo de professor duplo na Universidade de Leipzig e na Universidade de Vanderbilt 2020-01-28


O ex-aluno de pós-graduação do laboratório Meiler, Bian Li, recebe uma bolsa da AHA. 2019-12-09

O ex-aluno de pós-graduação do laboratório Meiler, Bian Li, recebe bolsa de estudo da American Heart Association (AHA) por seu projeto "Insights Biofísicos e Interpretação Probabilística de Variantes de Canal Iônico Cardíaco de Significância Incerta"


Brennica Marlow foi selecionada para co-presidir uma sessão na 64ª Reunião Anual da Biophysical Society 2019-12-09

Brennica Marlow foi selecionada para co-presidir a sessão & ldquoPlataforma: Interações Proteína-Lipídio I& rdquo na 64ª Reunião Anual da Biophysical Society. Esta sessão acontecerá em San Diego CA no domingo, 16 de fevereiro de 2020.


Rocco Moretti, PhD, foi promovido a Professor Associado Pesquisador 2019-06-17

Rocco Moretti, PhD, foi promovido a Professor Associado de Pesquisa em reconhecimento às suas contribuições para a excelência em pesquisa na Vanderbilt University, no Departamento de Química, no RosettaCommons (https://www.rosettacommons.org/) e no laboratório Meiler.


Marion Sauer ganha o prêmio de Liderança Estudantil 2019 2019-06-15

Parabéns Marion e obrigada pelo seu serviço comunitário!


Eli McDonald para recebe a Bolsa de Treinamento de Interface de Biologia Química Vanderbilt 2019-05-28

Parabéns Eli McDonald por receber a Bolsa de Treinamento de Interface de Biologia Química da Vanderbilt (NIH- # 5T32GM065086) em nome do Instituto de Biologia Química de Vanderbilt.


Jens Meiler recebe prêmio da Fundação Humboldt 2018-12-18

Jens Meiler foi selecionado para a cátedra Humboldt e agora iniciará negociações de nomeação com a universidade alemã que o indicou. Se as negociações forem bem-sucedidas, o prêmio será conferido em maio de 2019.


Shannon Smith recebe a bolsa de estudos de pré-doutorado em informática da PhRMA Foundation 2018-12-11

Shannon Smith recebe a bolsa de estudos para pré-doutorado em informática da PhRMA Foundation.


Samuel Schmitz é aprovado no exame de qualificação! 2018-11-13

Samuel Schmitz passa com sucesso no exame de qualificação com o título "Uma abordagem de estrutura de sequência combinada para elucidar repertórios imunológicos".


Jessica Finn passou em sua defesa! 2018-11-12

Jessica Finn foi aprovada em sua defesa com o título de "Relacionamentos de sequência, estrutura e função de anticorpos humanos"


Brian Bender passou na defesa! 2018-11-11

Brian Bender foi aprovado em sua defesa com o título "Previsão de estrutura e interpretação variante de proteínas de membrana auxiliada por algoritmos de aprendizado de máquina"


    A previsão da estrutura da proteína visa determinar a localização espacial de cada átomo em uma molécula de proteína a partir da sequência de aminoácidos por cálculos computacionais. Nosso laboratório desenvolveu uma série de algoritmos para previsão da estrutura 3D da proteína, incluindo I-TASSER para montagem da estrutura iterativa da proteína, QUARK para dobramento de proteína ab initio e MUSTER e LOMETS para identificação da estrutura do modelo de proteína, alguns dos quais foram reconhecidos como os melhor e amplamente utilizado pela comunidade.

A Avaliação Crítica da Predição da Estrutura (CASP) é um experimento para toda a comunidade, que visa comparar o estado da arte da previsão da estrutura da proteína a cada dois anos desde 1994. Nosso laboratório participou como "Zhang-Server" em a seção de previsão de estrutura automatizada desde 2006, cujo método tem sido consistentemente classificado no topo dos experimentos (Tabela 1). Os resultados de experimentos CASP recentes podem ser encontrados no Protein Structure Prediction Center.

tabela 1. Os dez principais grupos em predição de estrutura automatizada no CASP 7-9, classificados com base na pontuação GDT-TS cumulativa do primeiro modelo.
(Os dados foram retirados de http://predictioncenter.org. Quando vários servidores são do mesmo laboratório, o melhor servidor foi listado)

O problema mais difícil na previsão da estrutura da proteína é a modelagem de proteínas que não têm estruturas resolvidas que podem ser usadas como modelo, comumente referido como modelagem "ab initio" ou "modelagem livre (FM)". A Figura 1 mostra um exemplo bem-sucedido de modelagem ab initio em um alvo FM (T0604_1) em CASP9, onde o primeiro modelo do servidor I-TASSER tem um RMSD 2,66 Angstroms para a estrutura de cristal de raios-X.
figura 1. O primeiro modelo do servidor I-TASSER versus a estrutura cristalina de T0604_1, um alvo FM em CASP9.
Essa é a proteína VP0956 de Vibrio parahaemolyticus, resolvida pelo Northeast Structural Genomics Consortium.

  1. Como construir estruturas de resolução experimental (abaixo de 1-2 Angstroms, útil para triagem de drogas) quando modelos homólogos estão disponíveis?
  2. Como identificar modelos distantemente homólogos com alinhamentos de modelos de consulta precisos?
  3. Como dobrar proteínas (especialmente beta-proteínas) com topologia correta por modelagem ab initio, quando não existem modelos?
  4. Como dobrar proteínas de membrana?
    Projeto de proteína refere-se ao esforço para projetar novas moléculas de proteína com uma estrutura e função 3D desejadas. É um procedimento reverso de previsão da estrutura da proteína, e a solução do problema, portanto, depende muito da extensão de nosso entendimento sobre o princípio do enovelamento da proteína (Figura 2).
    Figura 2. O projeto da proteína é um procedimento reverso da previsão da estrutura da proteína.

Projetamos com sucesso uma série de novas sequências de proteínas com base em um campo de força atômica baseado na física com o estado de energia livre mais baixo pesquisado por simulação de Monte Carlo, seguido por agrupamento baseado em sequência. A sequência de proteína projetada pode ser dobrada por I-TASSER com um RMSD & lt2 Angstroms em 62% dos casos, apesar de o campo de força I-TASSER ser significativamente diferente daquele usado no projeto. A Figura 3 mostra três exemplos representativos da estrutura da proteína alvo e modelo I-TASSER das sequências projetadas.

Figura 3. Modelos I-TASSER de sequências de design (vermelho) versus estrutura cristalina de proteínas alvo (verde)
para domínio de ligação de cálcio de Calx (3E9TA), proteína de ligação de odorante (2ERBA) e peptidil-tRNA
hidrolase (1WN2A). As identidades das sequências projetadas e as sequências alvo estão todas abaixo de 30%.

Recentemente, propusemos um novo protocolo, o EvoDesign, que usa perfis evolutivos para guiar o refinamento do dobramento de novos designs, com funções biológicas introduzidas por perfis de ligação de interface de proteína e interações. O protocolo foi recentemente usado para projetar domínios BIR3 funcionais XIAP (inibidor de apoptose ligada ao X) capazes de se ligar a peptídeos Smac, mas não inibir a atividade proteolítica da caspase-9 in vitro, o que demonstrou o potencial de alterar as vias de apoptose por meio do projeto de proteína computacional ( Figura 4).

Figura 4. Sequência e estrutura de dois XIAPs projetados por EvoDesign que se ligam a
Peptídeos Smac, mas não inibindo a atividade proteolítica da caspase-9 in vitro.

    Dada a sequência de aminoácidos, podemos dizer o que a molécula de proteína faz nas células vivas? Nós desenvolvemos o COFACTOR para predição da função de proteínas, com base no paradigma sequência-estrutura-função. A partir da sequência de aminoácidos, as estruturas 3D são construídas primeiro por I-TASSER. As percepções funcionais (incluindo classificação de enzimas, ontologia do gene e especificidade de ligação do ligante) são então deduzidas pela comparação local e global dos modelos estruturais com proteínas de funções conhecidas (Figura 5).


Figura 5. Anotação de função de proteína com base no paradigma de sequência para estrutura para função. O certo
painel são os homólogos de função identificados por correspondências globais (a) e locais (b) dos modelos I-TASSER.

O COFACTOR foi testado no experimento CASP9 em toda a comunidade como "I-TASSER_FUNCTION" na seção do Servidor e como "ZHANG" na seção Humana, que foram classificados nas duas primeiras posições tanto no Z-score quanto no coeficiente de correlação de Matthews ( MCC) em comparação com os dados experimentais (Figura 6).

    A mutação e a evolução no genoma humano ocorrem principalmente por meio de polimorfismos de nucleotídeo único (SNPs), ou seja, substituições de um único nucleotídeo na sequência de DNA. Embora muitos SNPs não tenham efeito sobre a saúde humana, alguns SNPs podem resultar em dobras e funções anormais de proteínas e doenças humanas graves. Estudos demonstraram que mais de 6.000 doenças humanas são causadas por mutações SNP e quase todos os cânceres humanos são causados ​​por mutações genéticas, algumas de herança congênita e outras ocorrendo durante a divisão celular (Figura 7).


Figura 7. Muitas doenças humanas são causadas por polimorfismos de nucleotídeo único (SNPs).

Recentemente, estudamos o impacto das mutações do SNP na estabilidade do dobramento da proteína e descobrimos que as alterações de energia livre induzidas pelo SNP (ou seja, ddG, Figura 8A), calculadas a partir da previsão da estrutura da proteína, estão intimamente correlacionadas com a medição experimental, demonstrando a viabilidade de usar informações de previsão de estrutura de baixa resolução para examinar o efeito de mutações genéticas (Figura 8B). Em outro estudo, investigamos o impacto das mutações SNP na estabilidade das interações proteína-proteína (PPI). Verificou-se que os perfis estruturais da interface, coletados de interfaces de PPI homólogas, podem ser usados ​​para calibrar com precisão as alterações da afinidade de ligação proteína-proteína por mutações SNP (Figura 8C).
Figura 8. Modelagem do impacto das mutações SNP no enovelamento de proteínas e nas interações proteína-proteína. (A) Definição de
mudança de estabilidade após mutação em um modelo de dois estados. (B) Impacto da previsão da estrutura da proteína na mudança de estabilidade
cálculos. (C) Alterações de energia livre de ligação calculadas pelo perfil de interface versus dados experimentais de mutagênese.

    Cada proteína interage (pelo menos transitoriamente) com cerca de 9 outras proteínas, que formam redes de interação complicadas dentro de uma célula (Figura 9). Como a maioria das proteínas desempenha sua função biológica por meio da interação com outras proteínas, muitas doenças podem ser tratadas com o desenvolvimento de novos medicamentos para inibir ou ativar as interações proteína-proteína, onde o conhecimento das estruturas do complexo proteína-proteína é essencial.

Figura 9. Rhodopseudomonas palustris rede de interação proteína-proteína.

Para prever a estrutura 3D de complexos de proteína-proteína a partir da sequência, desenvolvemos um novo algoritmo de threading dimérico, COTH, para reconhecer a estrutura do modelo de complexos de proteínas a partir de bancos de dados estruturais complexos resolvidos. O COTH alinha sequências de cadeias múltiplas simultaneamente por meio da biblioteca PDB usando funções de pontuação, incluindo perfis de sequência múltipla e informações estruturais, com a ajuda de previsões de interface do BSpred. O algoritmo COTH demonstrou vantagem significativa em comparação com outros métodos de identificação de modelo baseados em homologia (Figura 10).

Figura 10. Pontuação TM de modelos identificados por COTH em comparação com outros métodos baseados em homologia.

    Os receptores acoplados à proteína G, ou GPCRs, são proteínas de membrana integrantes incorporadas na superfície da célula que transmitem sinais às células em resposta a estímulos e medeiam funções fisiológicas por meio da interação com proteínas G heterotriméricas (Figura 11). Muitas doenças envolvem o mau funcionamento desses receptores, tornando-os alvos importantes de medicamentos. Mais de 50% de todos os medicamentos modernos têm como alvo os GPCRs, que representam 25% dos 100 medicamentos mais vendidos em todo o mundo.


Figura 11. Os GPCRs compreendem a maior família de proteínas de membrana e atuam como receptores celulares para a transdução de sinal celular.

Estamos trabalhando no desenvolvimento da nova ferramenta de modelagem GPCR, GPCR-ITASSER, que estende o I-TASSER ao incorporar as interações proteína-membrana e as restrições de mutagênese no campo de força baseado em conhecimento. As interações ligante-GPCR são então modeladas por BSP-SLIM, uma ferramenta de docking molecular cega projetada para docking proteína-ligante de baixa resolução. O método foi testado (como "UMich-Zhang") no recente experimento GPCR Dock em toda a comunidade em 2010. A Figura 12 mostra o resultado de nosso laboratório em todos os três complexos ligante-GPCR, onde os primeiros modelos de receptor são 2,4 e 1,6 Angstroms à estrutura cristalina na região transmembranar para os receptores D3 da quimiocina CXCR4 e da dopamina, respectivamente. Os três ligantes, antagonistas IT1t, CVX15 e eticloprida, estão todos no mesmo bolso que na estrutura do cristal (Figura 12).
Figura 12. O primeiro modelo de acoplamento ligante-receptor gerado por GPCR-ITASSER e BSP-SLIM no GPCR-Dock 2010.
Esquerda: receptor de quimiocina CXCR4 com meio IT1t: receptor CXCR com CVX15 direita: dopamina D3 com eticloprida.

A Tabela 2 mostra um resumo dos 10 principais grupos (de 35) no GPCRDock 2010, junto com o Z-score cumulativo em todos os três alvos para os modelos de receptor e ligante. O sucesso mais significativo de nossos modelos está no alvo de homologia distante CXCR4 / CVX15, como Kufareva et al. (os avaliadores) comentaram: "Modelar o complexo de peptídeos CXCR4 / CVX15 representou o maior desafio do GPCR Dock 2010. O modelo principal deste complexo (por UMich-Zhang) tem o Z-score de 2,45, até agora, excedendo outros modelos em precisão. "

mesa 2. Os 10 melhores grupos no GPCRDock 2010 com base no escore Z total de modelos de receptor e ligante.
(Os dados foram retirados de Kufareva et al. Structure. 2011, 19: 1108)

    Em termos da metáfora de chave e fechadura, o design de drogas é essencialmente um procedimento para encontrar uma molécula de composto apropriada (a chave) que pode combinar bem com a bolsa do local ativo da proteína alvo (a chave). Portanto, uma etapa importante do projeto de droga racional com base na estrutura é usar a estrutura 3D experimental ou prevista da proteína alvo para rastrear bancos de dados de compostos com o objetivo de identificar drogas apropriadas que podem inibir ou ativar a proteína (Figura 13).

Figura 13. Um exemplo bem-sucedido de projeto de droga baseado em estrutura por Bugg et al. na década de 1990, no projeto de uma molécula
que inibe a enzima purina nucleosídeo fosforilase (PNP). PNP normalmente ocupa nucleosídeos individuais (a)
e separa a purina do açúcar, dando origem a uma base de purina livre e um açúcar fosforilado (b).
Um composto bem ajustado bloqueia a bolsa de ligação e, portanto, inibe a atividade da enzima PNP (c).

Recentemente, desenvolvemos uma abordagem composta para identificação de compostos semelhantes a drogas, que combina triagem virtual baseada em estrutura com relação quantitativa estrutura-atividade (QSAR). Ao usar a abordagem para o receptor do fator de crescimento epidérmico (EGFR), uma importante proteína alvo associada a tumores de cérebro, pulmão, bexiga e cólon, descobrimos que dois compostos (2 e 21) têm atividades inibidoras de EGFR significativas (Figura 14). O ensaio experimental para testar a capacidade dos compostos em inibir as proteínas receptoras está em progresso.

Figura 14. Estrutura de ligação de dois compostos selecionados da biblioteca ZINC que têm
atividade no receptor do fator de crescimento epidérmico (EGFR), uma importante proteína alvo do tumor.


G4. Predição da Estrutura da Proteína da Membrana - Biologia

################### Versão estável: 2.2.1 Veja o Wiki para mais informações

Muriel Keribin e Cyril Duchon-Doris para Protein Prediction II WinterSemester 2015-2016

TMSEG prediz proteínas transmembrana (TMP) e hélices transmembrana (TMH) usando matrizes de pontuação específicas de posição (PSSM) geradas por PSI-BLAST e as propriedades físico-químicas dos aminoácidos.

Atualizar: Devido à cota limitada de Git LFS, agora também hospedamos esses arquivos no servidor FTP Rostlab em ftp://rostlab.org/tmseg/

Alguns arquivos são muito grandes (arquivos de modelo para algoritmos de ML) e foram confirmados usando git-lfs *. É obrigatório instalar o git-lfs ao clonar / puxar o repo. Baixe e instale git-lfs Em seguida, execute git lfs install em cada máquina uma vez. Então você não precisa se preocupar com isso (apenas se desejar adicionar / renomear alguns arquivos que deseja rastrear com git-lfs).

* Git Large File Storage (LFS) substitui arquivos grandes como amostras de áudio, vídeos, conjuntos de dados e gráficos por ponteiros de texto dentro do Git, enquanto armazena o conteúdo do arquivo em um servidor remoto como GitHub.com ou GitHub Enterprise.

Opcional: você pode optar por pular esta etapa e usar o tmseg.jar pré-empacotado na primeira pasta / src /

Um script ANT (build.xml) permite que você compile a versão mais recente do programa com o ant

Uma vez obtido com git-lfs, você encontrará tmseg.jar na primeira pasta / src /. Este jar pode ser executado facilmente com java com alguns exemplos fornecidos na pasta / example:

O projeto pode ser carregado do eclipse (um .project e .classpath foram adicionados por nós)

Por causa da portabilidade JAVA, o programa funciona em qualquer sistema operacional que possa executar uma JVM. Java 1.7 e 1.8 funcionam bem.

Michael Bernhofer (1) Edda Kloppmann (1,2) Jonas Reeb (1) Burkhard Rost (1,2,3,4)

  1. Departamento de Informática e Centro de Bioinformática e Biologia Computacional - i12, Technische Universität München (TUM), Boltzmannstr. 3, 85748 Garching / Munique, Alemanha
  2. New York Consortium on Membrane Protein Structure, New York Structural Biology Center, 89 Convent Avenue, New York, NY 10027
  3. Instituto de Estudos Avançados (TUM-IAS), Lichtenbergstr. 2a, 85748 Garching / Munique, Alemanha
  4. Instituto de Ciências Alimentares e Vegetais WZW - Weihenstephan, Alte Akademie 8, Freising, Alemanha

Primeira versão do programa: trabalho iniciado em 2014, primeiro commit em 09/02/2014, último em 01/03/2014 Uma segunda versão (TMSEG 2) foi lançada por Michael em novembro de 2015 em https://github.com / BernhoferM / TMSEG2. O repo foi então bifurcado para Rostlab / namespace e o trabalho deve continuar a partir daí

Michael Bernhofer implementou o método neste programa java TMSEG

M. Bernhofer, E. Kloppmann, J Reeb, B Rost. TMSEG: Nova previsão de hélices transmembrana.

O programa em si é codificado em java e exportado em um arquivo .jar. Arquivos fonte disponíveis em src /

A previsão é dividida em três etapas executadas por três classificadores diferentes.

  • Árvores de decisão de floresta aleatória (RF)
  • prevê a probabilidade de cada resíduo estar em um de três estados: transmembrana, solúvel e peptídeo sinal. O RF usa uma janela deslizante de 19 resíduos para as pontuações PSSM e 9 resíduos para as propriedades físico-químicas (carga, hidrofobicidade, polaridade). A sequência da proteína é então dividida em segmentos transmembranares e solúveis (e peptídeo sinal, se aplicável) com base nas probabilidades.
  • prevê a topologia interna / externa do terminal N. A previsão é baseada na composição de aminoácidos e carga positiva dos resíduos nas duas faces da membrana (separados pelos TMHs).
  • Rede Neural (NN) refina a previsão ajustando a posição dos TMHs ou potencialmente dividindo TMHs muito longos (& gt36 resíduos). Este NN é treinado especificamente no comprimento, composição de aminoácidos e propriedades físico-químicas de TMHs.

O TMSEG foi comparado a três métodos estabelecidos: PolyPhobius [1], MEMSAT3 [2], MEMSAT-SVM [3] e PHDhtm [4]. Seu desempenho era pelo menos comparável e geralmente melhor do que os outros três métodos. A avaliação foi realizada em um conjunto de dados com 41 proteínas transmembrana e 285 proteínas solúveis. Os perfis PSSM foram gerados executando o PSI-BLAST contra o UniProt [5] Reference Cluster com 90% de identidade de sequência (UniRef90).

O TMSEG identificou corretamente 98 ± 2% das proteínas transmembrana (40 de 41 TMPs) e teve uma taxa de falsos positivos de apenas 3 ± 1% (8 de 285 proteínas solúveis). As hélices transmembrana foram previstas com uma precisão de 87 ± 4% e recall de 85 ± 4%, e 66 ± 7% de todas as proteínas transmembrana foram previstas com todas as suas hélices nas posições corretas (ou seja, sem falsos positivos / negativos).

Uma hélice prevista foi considerada correta se seus pontos finais não se desviaram em mais de cinco resíduos da hélice observada, e se a sobreposição entre a hélice prevista e observada foi pelo menos metade do comprimento da hélice mais longa.

O TMSEG usa apenas as pontuações PSI-BLAST PSSM e recursos derivados dessas pontuações. Portanto, a qualidade da previsão depende fortemente da qualidade do PSSM. Para estimar o efeito do tamanho do banco de dados na precisão da predição, PSSMs de um PSI-BLAST executado contra o UniRef50 Cluster e Swiss-Prot foram usados.

Esses PSSMs afetaram principalmente o recall de proteínas e hélices transmembrana. O recall de proteínas caiu para 95% (UniRef50) e 90% (Swiss-Prot), e o recall da hélice para 79% (UniRef50) e 77% (Swiss-Prot). A precisão das hélices transmembrana caiu para 83% (UniRef50) e 82% (Swiss-Prot), e a porcentagem de proteínas transmembrana com todas as hélices em suas posições corretas foi de apenas 59% (UniRef50) e 49% (Swiss-Prot) . However, the false positive rate (i.e. soluble proteins predicted as transmembrane proteins) was mostly unaffected and remained at 3% (UniRef50) and 2% (Swiss-Prot).

Inputs/Output arguments and flags

IN -i : FASTA file (only amino acids sequences)

IN -p : PSSM Matrix file generated by PSI-BLAST

OUT -o : Human readable file

OUT -r : Raw prediction scores

FLAG -m : Multi-job (process whole folder of PSSM/FASTA)

FLAG -x : Process previous prediction - Adjust (requires FASTA)

FLAG -t : Only perform topology prediction

[1] L. Käll, A. Krogh, and E. L. Sonnhammer. An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformatics, 21 Suppl 1:i251–257, Jun 2005. [DOI:10.1093/bioinformatics/bti1014] [PubMed:15961464]

[2] D. T. Jones. Improving the accuracy of transmembrane protein topology prediction using evolutionary information Bioinformatics, 23(5):538–544, Mar 2007. [DOI:10.1093/bioinformatics/btl677] [PubMed:17237066]

[3] T Nugent, D. T. Jones. Transmembrane protein topology prediction using support vector machines. BMC Bioinformatics 200910:159. [DOI:10.1186/1471-2105-10-159] [PubMed:19470175]

[4] B. Rost, P. Fariselli, and R. Casadio. Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Sci., 5(8):1704–1718, Aug 1996. [DOI:10.1002/pro.5560050824] [PubMed:8844859] [PubMed Central:PMC2143485]

[5] UniProt C. UniProt: a hub for protein information. Nucleic Acids Res. 2015, 43:D204-212. [DOI:10.1093/nar/gku989] [PubMed:25348405] [PubMed Central:PMC4384041]


Debora Marks

Associate Professor of Systems Biology
Marks Lab website

Contact Information
Email: [email protected]

Faculty Assistant: Kevin Chimo
[email protected]
617-432-5041

One million human genomes, will it make a difference? The large and growing volume of genome information, from all forms of life, presents unprecedented opportunities for computational biologists. The challenge for our scientific generation is to turn an avalanche of sequence information into meaningful discovery of biological principles, predictive methods, or strategies for molecular manipulation for therapeutic and biofuel discovery. The Marks lab is a new interdisciplinary lab dedicated to developing rigorous computational approaches to critical challenges in biomedical research, particularly on the interpretation of genetic variation and its impact on basic science and clinical medicine. To address this we develop algorithmic approaches to biological data aimed at teasing out causality from correlative observations, an approach that has been surprisingly successful to date on notoriously hard problems. In particular, we developed methods adapted from statistical physics and graphical modeling to disentangle true contacts from observed evolutionary correlations of residues in protein sequences. Remarkably, these evolutionary couplings, identified from sequence alone, supplied enough information to fold a protein sequence into 3D. The software and methods we developed is available to the biological community on a public server that is quick and easy for non-experts to use. In this evolutionary approach to accurately we have predicted the 3D structure of hundreds of proteins and large pharmaceutically relevant membrane proteins. Many of these were previously of unknown structure and had no homology to known sequences two of the large membrane proteins have now been experimentally validated. We have now applied this approach genome wide to determine the 3D structure of all protein interactions that have sufficient sequences and can demonstrate the evolutionary signature of alternative conformations.

The vision for the Marks lab is to build computational methods that address three critical challenges (i) protein conformational plasticity in health and disease, (ii) genome-wide evaluation of mutations on disease likelihood, antibiotic resistance and personal drug response, and (iii) synthetic protein design.

About Dr. Marks: I am a computational biologist interested in how to read the genome and interpret its variation. Recently, we have used evolutionary couplings determined from genomic sequencing to accurately protein 3D structure from sequences alone, including the experimentally challenging transmembrane proteins. Continuing from this my lab aims to predict alternative conformations and plasticity of proteins, and the consequences of protein genetic variation on pharmacological intervention. In a complementary approach, we are examining on the effect of drugs on patients and cell lines by bringing together large bodies of data from multiple perturbations and thousands of cancer patient tissues.


G4. Prediction of Membrane Protein Structure - Biology

Transmembrane Prediction Server

This page has been developed for use locally (at the moment) for the prediction of transmembrane helices in proteins. It is made available publically, but is currently unsupported. If you have a major problem contact benjamin.hall (at) bioch.ox.ac.uk (replace (at) with @) but the response is not guaranteed. This service was developed by John Cuthbertson and the following reference should be cited if used in published work.

Transmembrane helix prediction: a comparative evaluation and analysis.

Protein Eng Des Sel. 2005 Jun18(6):295-308

This work was funded by the MRC:

None of the original programs were produced or developed by me:

Enter your query protein sequence into the form below. The sequence should be in one letter code with no identifiers . A good site for converting between different sequence formats is READSEQ

For a brief description of the method read the abstract.

Please cite: M. Cserzo, E. Wallin, I. Simon, G. von Heijne and A. Elofsson: Prediction of transmembrane alpha-helices in procariotic membrane proteins: the Dense Alignment Surface method Prot. Eng. vol. 10, não. 6, 673-676, 1997

The method is described in "G.E Tusn dy and I. Simon (1998) Principles Governing Amino Acid Composition of Integral Membrane Proteins: Applications to Topology Prediction." J. Mol. Biol. 283, 489-506. New features of HMMTOP 2.0 are described in "G.E Tusn dy and I. Simon(2001). The HMMTOP transmembrane topology prediction server" Bioinformatics 17, 849-850

White & Wimley (1999) Annu. Rev. Biophys. Biomolec. Struct. 28:319-365

PHDhtm predicts the location and topology of transmembrane helices from multiple sequence alignments Transmembrane helices in integral membrane proteins are predicted by a system of neural networks. The shortcoming of the network system is that often too long helices are predicted. These are cut by an empirical filter. The final prediction (Rost et al., Protein Science, 1995, 4, 521-533) has an expected per-residue accuracy of about 95%. The number of false positives, i.e., transmembrane helices predicted in globular proteins, is about 2% (Rost et al. 1996). The neural network prediction of transmembrane helices (PHDhtm) is refined by a dynamic programming-like algorithm. This method resulted in correct predictions of all transmembrane helices for 89% of the 131 proteins used in a cross-validation test more than 98% of the transmembrane helices were correctly predicted. The output of this method is used to predict topology, i.e., the orientation of the N-term with respect to the membrane. The expected accuracy of the topology prediction is > 86%. Prediction accuracy is higher than average for eukaryotic proteins and lower than average for prokaryotes. PHDtopology was more accurate than all other methods tested on identical data sets in 1996 (Rost, Casadio & Fariselli, 1996a and 1996b). B Rost: PHD: predicting one-dimensional protein structure by profile based neural networks. Methods in Enzymology, 266, 525-539, 1996. B Rost, P Fariselli, and R Casadio: Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Science, 7, 1704-1718, 1996 Comments to be sent to [email protected]

Please cite the following references when you publish the results of this program. Klein, P., Kanehisa, M., and De Lisi, C., Biochim. Biophys. Acta, 815, 468-476, 1985. (for the modification using two threshold parameters:) Nakai, K., and Kanehisa, M., Genomics 14, 897-911, 1992. Any comments to [email protected] . Originally coded by Minoru Kanehisa

Membrane Protein Secondary Structure Prediction Server

The purpose of this server is to predict the transmembrane (TM) secondary structures of membrane proteins, using the method of preference functions. The method was invented by Davor Juretic, professor at the University of Split, Croatia. This server was written by Damir Zucic,at the University of Osijek , Croatia. Ana Jeroncic was involved both in development of the prediction program and in testing of this server. Click here to read more about Prof. Davor Juretic group. For comments contact prof. dr. Davor Juretic or [email protected]

This program predicts transmembrane segments in proteins, utilising the algorithm described in: "Persson, B. & Argos, P. (1994) Prediction of transmembrane segments in proteins utilsing multiple sequence alignments J. Mol. Biol. 237, 182-192."and "Persson, B. & Argos, P. (1996) Topology prediction of membrane proteins Prot. Sci. 5, 363-371" Users of this program are kindly asked to cite the above references in publications (or other types of presentation). Send your comments to [email protected]

Liu, L.-P. and Deber, C.M.: Guidelines for Membrane Protein Engineerin g Derived from de novo Designed Model Peptides. Biopolymers (Peptide Science) 47 , 41-62 (1998). (Abstract)

Liu, L.-P. and Deber, C.M.: Uncoupling Protein Hydrophobicity and Helicity in Nonpolar Environments. J. Biol. Chem 273 , 23645-23648 (1998). (Abstract)

Liu, L.-P. and Deber, C.M.: Combining Hydrophobicity and Helicity: A Novel Approach to Membrane Protein Structure Prediction. Bioorg & Med. Chem. 7 , 1-7 (1999). (Abstract) Feel free to send comments to [email protected] .

Anders Krogh and Bjorn Larsson, Gunnar von Heijne, and Erik L.L. Sonnhammer: Predicting Transmembrane Protein Topology with a Hidden Markov Model: Application to Complete Genomes. J. Mol. Biol. 305:567-580, 2001. and Erik L.L. Sonnhammer, Gunnar von Heijne, and Anders Krogh: A hidden Markov model for predicting transmembrane helices in protein sequences. In J. Glasgow et al., eds.: Proc. Sixth Int. Conf. on Intelligent Systems for Molecular Biology, pages 175-182. AAAI Press, 1998. Comments to be sent to Anders Krogh, [email protected]

The TMpred program makes a prediction of membrane-spanning regions and their orientation. The algorithm is based on the statistical analysis of TMbase, a database of naturally occuring transmembrane proteins. The prediction is made using a combination of several weight-matrices for scoring. K. Hofmann & W. Stoffel (1993) TMbase - A database of membrane spanning proteins segments Biol. Chem. Hoppe-Seyler 347 ,166


Materiais e métodos

Data Compilation

We collected from the SwissProt UniProt database (release 2013_03) 10,780 transporter, carrier, and channel proteins that were well characterized at the protein level and had clear substrate annotations [15], [16]. We removed sequences that were fragmented. We also removed sequences annotated with more than two substrate specificities and biological function annotations that were based solely on sequence similarity. We manually curated the biological function annotations from the remaining sequences and compiled a total of 1,110 membrane transport protein sequences in which only one transporting substrate has been reported in the literature. We removed 210 sequences that showed greater than 70% similarity using CD-HIT software [17] (see Figure S1 for details about the data compilation and curation processes). The 900 remaining transporter sequences were then divided into seven major classes of transporters based on their substrate specificity: 85 amino acid/oligopeptide transporters, 72 anion transporters, 296 cation transporters, 70 electron transporters, 85 protein/mRNA transporters, 72 sugar transporters, and 220 other transporters. We also compiled 660 non-transporters as an extra class of control proteins in our model development process by randomly sampling all the proteins in UniProt release 2013_03 excluding the 10,780 transporters.

We further divided the 1,560 compiled proteins into two datasets: 1) the main dataset, which consisted of 70 amino acid transporters, 60 anion transporters, 260 cation transporters, 60 electron transporters, 70 protein/mRNA transporters, 60 sugar transporters, 200 other transporters, and 600 non-transport proteins for a total of 1,380 proteins and 2) an independent dataset, which consisted of 15 amino acid transporters, 12 anion transporters, 36 cation transporters, 10 electron transporters, 15 protein/mRNA transporters, 12 sugar transporters, 20 other transporters, and 60 non-transport proteins for a total of 180 proteins (see Tabela S1 for a detailed dataset partition all the sequences are available on our TrSSP web server at http://bioinfo.noble.org/TrSSP/). We applied a five-fold cross-validation schema on the 1,380 proteins in the main dataset to develop our SVM models. The performance of these SVM models was further tested and validated on the independent dataset of 180 proteins. To evaluate the prediction accuracy of the models for each class of proteins, proteins within the same class were considered a positive predictor and proteins from the remaining classes were considered a negative predictor.

Extraction of multi-features from protein sequences for SVM model construction

Monopeptide composition.

Amino acid composition is the best and most popular method to represent the features of a protein [18]. The monopeptide composition gives a fixed length pattern of 20 features. The amino acid composition of a protein is defined as the fraction of each amino acid within that protein. The percentage of each amino acid was calculated using the following formula: (1) where eu represents one of the 20 standard amino acids.

Dipeptide composition.

The dipeptide composition was used to encapsulate global information about each protein sequence. The dipeptide composition gives a fixed length pattern of 400 (20×20) features. Two consecutive amino acids are used to calculate the dipeptide composition information. This representation encompasses information about the amino acid composition as well as the local order of amino acids. The percentage of each dipeptide was calculated using the following formula: (2) where eu can be any dipeptide of 400 possible dipeptides.

Physico-chemical composition.

The physico-chemical composition is the composition of the physico-chemical class residues in each protein sequence. We calculated the percentage composition of charged (D, E, K, H, R), aliphatic (I, L, V), aromatic (F, H, W, Y), polar (D, E, R, K, Q, N), neutral (D, E, R, K, Q, N), hydrophobic (C, V, L, I, M, F, W), positively charged (H, K, R), negatively charged (D, E), tiny (A, C, D, G, S, T), small (E, H, I, L, K, M, N, P, Q, V), and large (F, R, W, Y) residues in each protein sequence [19]. We used the composition percentages of these 11 physico-chemical properties as an input feature to the SVM for model development [20].

Biochemical composition calculation.

The biochemical composition of the amino acid residues was also used as an input feature to the SVM for model development. We used a set of 49 selected physical, chemical, energetic, and conformational properties to define the biochemical composition of each protein sequence [13]. These values are subsets of the AAIndex database [21], which has been successfully used to study protein folding and stability [22]–[24] and transporter classification [25]. We downloaded the 0–1 normalized values of these 49 properties from http://www.cbrc.jp/

gromiha/fold_rate/property.html the details of each property are available at this website. We calculated the average of each biochemical property for each protein sequence using the following equation: (3)

Where is the value for the euth biochemical property in a given protein sequence, is the arithmetic sum of the euth biochemical property, and n is the length of the protein sequence. We therefore converted the biochemical properties of each protein sequence into a vector with a fixed size of 49.

Position-specific scoring matrix (PSSM) profile

PSI-BLAST (Position-Specific Iterative Basic Local Alignment Search Tool) is a popular tool for the detection of distantly related proteins. PSI-BLAST calls BLAST (Basic Local Alignment Search Tool) to construct a profile or position-specific scoring matrix (PSSM) from the multiple alignments of the highest scoring hits in an initial BLAST search (default threshold e-value = 1e-3). The newly generated profile is then used iteratively to perform subsequent BLAST searches, and the result of each iteration is in turn used to refine the PSSM profile [26]. The PSSM therefore contains the probability of the occurrence of each type of amino acid residue at each position as well as insertions/deletions. Highly conserved positions receive high scores and weakly conserved positions receive near zero scores. We ran PSI-BLAST against the UniRef90 protein database (i.e., the non-redundant UniRef database with 90% sequence identity) [27] with the BLOSUM62 matrix [28]. We also used the SwissProt database [15] to generate the PSSM profile during our TrSSP web server development, which significantly reduced the computational runtime. The PSSM profile of a protein sequence extracted from PSI-BLAST was used to generate a 400-dimensional input vector to the SVM by summing all the rows in the PSSM that correspond to the same amino acid in the primary sequence. Every element in this input vector was then divided by the length of the sequence and scaled to the 0–1 range using the following standard linear function: (4) where Valor represents the individual final sum of the PSSM score for each amino acid [29].

Cross-validation

Cross-validation is a practical and reliable way to test the predictive power of a newly developed model. The jack-knife or leave-one-out cross-validation (LOOCV) [30] and five-fold cross-validation are two commonly used techniques to evaluate a model. We used a five-fold cross-validation in the present SVM model development. In five-fold cross-validation, the dataset is partitioned into five equally sized random partitions [29], [31]. The methods of development and evaluation are conducted five times using four partitions as the training dataset and the remaining partition as the testing dataset. The performance of each model is computed as the average of the five runs.

Support vector machines

The support vector machine (SVM) is a universal machine learning approximator based on the structural risk minimization (SRM) principle of statistical learning theory [32]. This technique is particularly attractive to biological sequence analysis due to its ability to handle noise and larger feature spaces [25]. We implemented SVM models using the SVM-Light software [33], which is freely available from http://svmlight.joachims.org/. SVM-Light enables the user to define the number of parameters and choose an inbuilt kernel, such as a linear, polynomial, sigmoid, or radial basis function (RBF) kernel. In this study, we tested linear, polynomial and RBF kernels for model development and found RBF performed better than other kernels. We also optimized both cost and gamma parameters (range of -j: 1- 4, -g: 1-e-5 - 10) of RBF kernel.

Comparison to similarity search based methods

Sequence similarity remains the most popular method for the functional characterization of proteins. Therefore, we compared the performance of our SVM models for the prediction of substrate-specific transporter classes on both our main dataset and independent dataset to the following similarity search based methods: BLAST, PSI-BLAST, and hidden Markov models (HMM). In these similarity search based method development and evaluations, we used all unique transporter protein sequences without applying homology sequence filtering by using the CD-HIT tool.

BLAST.

BLAST (Basic Local Alignment Search Tool) is one of the most popular bioinformatics tool for functional annotation of protein and nucleotide sequences [26], [34]. A BLAST search allows a user to search a query sequence against a library or database of sequences and find similar sequence in the library at a given cut-off threshold. The biological function of that hit sequence may be used to infer the function of the query sequence.

PSI-BLAST.

PSI-BLAST is a tool that produces a PSSM constructed from a multiple alignment of the top-scoring BLAST hits to a given query sequence [26]. The position-specific matrix for round n + 1 is built from a constrained multiple alignment between the query sequence and the sequences found with a sufficiently low e-value in round n. This scoring matrix produces a profile designed to identify the key positions of conserved amino acids within a motif. Subtle relationships between proteins that are distant structural or functional homologs can often be detected when this profile is used to search a database these relationships are often not detected by a BLAST search. Therefore, we used PSI-BLAST in addition to BLAST to detect remote homologies. We conducted an iterative search in which the sequences found in one round were used to build score models for the next round of searching. Three iterations of PSI-BLAST were conducted at different cutoff e-values. This module could predict any of the seven transporter and one non-transporter classes depending on the similarity of the query protein to the proteins in the dataset. If the top hit had an e-value lower than the cut-off threshold, then the annotation of the top hit was used as the predicted annotation of the query.

Hidden Markov models.

HMMs are statistical models of the primary structure consensus of a sequence family. HMMs were initially developed for speech recognition [35]. In biological sequence analysis, HMMs are used to build a profile that captures important information about the degree of conservation at various positions in multiple alignments and the varying degree to which gaps and insertion are permitted. HMM-based methods, which work on a formal probabilistic basis, typically outperform methods based on pairwise comparison in both alignment accuracy and database search sensitivity and specificity. Further details about HMMs can be found in Krogh et al. [36]. We adopted HMM-based searching using a freely downloadable implementation of HMM, HMMER version 3.1b1 [37], which is freely available at http://hmmer.janelia.org.

To implement the HMM-based method, the entire dataset was divided into 5 subsets similar to the five-fold cross-validation schema [38]. Four subsets of sequences were multiply aligned using ClustalW2 [39], and alignment profiles were generated using ‘hmmbuild’ in HMMER 3.1.b1. This profile database was converted into compressed binary data files using ‘hmmpress’, and tested with the fifth subset of sequences using the ‘hmmscan’ module in HMMER 3.1b1.

Assessment of prediction performances

Sensitivity, specificity, accuracy, coverage, and the Matthews correlation coefficient (MCC) were calculated for each test dataset in our five-fold cross validation to test the performance of each model. Parameters computed from each subset were averaged across all five subsets to obtain a final value.

Sensitivity was computed as , which evaluates the percentage of transporters that were correctly predicted as transporters.

Specificity was computed as , which evaluates the percentage of non-transporters that were correctly predicted as non-transport proteins.

Accuracy was computed as , which evaluates the overall percentage of transporters and non-transporters that were correctly predicted.

Coverage was computed as , which provides a measure of the number of transporters that have been correctly predicted from the total dataset. This coverage is also commonly known as sensitivity or percentage of correct predictions/hits.

The Matthews correlation coefficient (MCC), which was computed as , is a statistical parameter that assesses the quality of the binary classification for each model. The MCC accounts for both true and false positive predictions and is regarded as a balanced measure even when the two classes are different sizes. An MCC equal to 1 is regarded as a perfect prediction an MCC close to 0 is regarded as a random prediction. In these formulas, TP (true positive) represents the number of correctly predicted transporters, TN (true negative) represents the number of correctly predicted non-transporters, FP (false positive) represents the number of non-transporters predicted as transporters, and FN (false negative) represents the number of transport proteins predicted as non-transporters.

All the parameters described above are threshold-dependent parameters therefore, the performance of a model depends on a threshold. An analysis of the area under the curve (AUC) of the receiver operating characteristic (ROC) curve overcomes the threshold dependence of the above metrics. The ROC curve plots the true positive proportion (TP/TP+FN, i.e., sensitivity) against the false positive proportion (FP/FP+TN, i.e., 1 - specificity) for each model. The area under this ROC curve provides a single measure on which to evaluate the performance of each model. This well-known threshold-independent ROC analysis enables the evaluation of the performance of a binary classifier system as the discrimination threshold of that system is varied. An AUC of 1.0 indicates a perfect prediction and an AUC of 0.5 indicates that the prediction is no better than a random guess.


Conteúdo

In 1912 Max Von Laue directed X-Ray's at crystallized copper sulfate generating a diffraction pattern. [3] These experiments led to the development of X-Ray Crystallography, and its usage in exploring biological structures. Pepsin crystals were the first proteins to be crystallized for use in X-Ray diffraction, by Theodore Svedberg. [4] The first tertiary protein structure, that of Myoglobin, was published in 1958 by John Kendrew. [5] During this time, modeling of protein structures was done using balsa wood or wire models. [6] With the invention of modeling software such as CCP4 in the late 1970's, [7] modeling is now done with computer assistance. Recent developments in the field have included the generation of X-Ray free electron lasers, allowing analysis of previously hidden structures [8] and the use of structural biology in assisting synthetic biology [9]

Biomolecules are too small to see in detail even with the most advanced light microscopes. The methods that structural biologists use to determine their structures generally involve measurements on vast numbers of identical molecules at the same time. These methods include:

Most often researchers use them to study the "native states" of macromolecules. But variations on these methods are also used to watch nascent or denatured molecules assume or reassume their native states. See protein folding.

A third approach that structural biologists take to understanding structure is bioinformatics to look for patterns among the diverse sequences that give rise to particular shapes. Researchers often can deduce aspects of the structure of integral membrane proteins based on the membrane topology predicted by hydrophobicity analysis. See protein structure prediction.


Métodos

CNT3 model building

To build the hCNT3 model the standard automodel routine of MODELLER-9v11 [26] and the vcCNT template structure (PDB id: 3TIJ) were used. A small molecule ligand uridine, a sodium ion and two water molecules which were present in the binding site of the crystal structure of vcCNT (see Fig. 2d) were also added. Thus, the proper orientation of side chains inside the hCNT3 binding site was preserved during the model building procedure. To build the model of the hCNT3 monomer only the fragment of the full 691-residue long sequence of hCNT3 (Uniprot id: Q9HAS3) was used. Namely, the N and C-terminus which were predicted to be outside the membrane (see Uniprot) were cut out leaving the 522-residue hCNT3 sequence (see Fig. 2e) corresponding to the residue range 91 – 612 from the Q9HAS3 entry. The lowest energy model, according to the DOPE energy function, of the hCNT3 monomer out of 100 generated was selected and used in the subsequent loop refinement. The refinement of the hCNT3 monomer loops was performed in Rosetta3 using the cyclic coordinate descent algorithm (CCD) [29]. To preserve efficiency of sampling of conformational space loop refinement simulations were divided in three separate categories. The first one was dedicated to the loop refinement of the 185 - 194 sequence region, the second one to the 128 - 136, 234 - 237, 258 - 266 and 317 - 341 sequence regions and the third one to the 486 - 493 sequence region. In each category 1000 loop models were generated. All 1000 models generated in each loop category were subjected to the clustering analysis with the Rosetta cluster application. From each category 20 cluster representatives, each of which had the lowest total Rosetta score within its cluster, were selected. All the cluster representatives were combined with each other to generate 8000 (20 × 20 × 20) possible loops combinations. Each loop combination was used to build one model of the hCNT3 homotrimer using the vcCNT template structure (PDB id: 3TIJ) and the MODELLER procedure described above. Here, the 3-fold symmetry of the hCNT3 homotrimer was kept. The DOPE potential was used to select the best model of hCNT3 out of all 8000 generated. That 1566-residue long hCNT3 model (all three subunits: 3 × 522 residues) was cut to the 1350-residue long model by removing N-termini of the subunits B and C. That 1350-residue long model of hCNT3 was subjected to de novo folding of N-terminus of the subunit A with Rosetta Broker [25]. For the Broker simulation all standard settings for Rosetta3 were used (see Additional file 1: Table S1–S2). Namely, implicit membrane energy terms described in details in [30] and the fragment library (3- and 9-residue long fragments) obtained with Robetta (http://robetta.bakerlab.org/fragmentsubmit.jsp) were used. The consensus membrane topology predictor TOPCONS [31] and the hCNT3 Uniprot entry (id: Q9HAS3) were used to detect positions of three N-terminal transmembrane helices (TMHs) (see Fig. 2e). Additionally, the sequence profile-based lipophilicity prediction was performed and used in the Broker simulation. During the Broker simulation only the N-terminal 108-residue long fragment in the first subunit A with the predicted three TMHs was kept flexible. The rest of the homotrimer was kept as a rigid body. Nevertheless, various approaches were tested (data not shown) before the final modeling protocol was decided. Namely, longer N-terminal fragments, 198- and 247-residue long, including the 90- and 139-residue long membrane regions of hCNT3 were folded de novo without the rest of the hCNT3 homotrimer. Also, the short, 108-residue long N-termini only in the presence of the subunit A structure was folded. Yet, it turned out that the best option for the Broker simulation was folding of the short, 108-residue long N-termini of the subunit A with the presence of other subunits B and C forming the whole 1350-residue long hCNT3 homotrimer. 10,000 models were generated and clustered using the Rosetta3 cluster application. Top ten low-energy models from the most populated cluster of the hCNT3 models according to the Rosetta total score were selected and visually inspected. One selected model was used as a template to build the final hCNT3 homotrimer model with the described above MODELLER procedure. The N-terminal region with three TMHs predicted de novo was repeated in all three subunits to ensure the 3-fold symmetry of the homotrimer. A total number of 20 hCNT3 homotrimer models were generated and the lowest energy model according to DOPE was subjected to the further analysis and the MD simulation.

uma The crystal structure of the vcCNT homotrimer (PDB id: 3TIJ) shown in the extracellular, membrane and intracellular view, respectively. b A homology model of the hCNT3 homotrimer superposed on the crystal structure of vcCNT (grey) shown in the extracellular, membrane and intracellular view, respectively. c A homology model of the hCNT3 homotrimer superposed on the low-energy structure obtained from the 1956 frame out of all 5000 frames of the 100 ns MD simulation, shown in the extracellular, membrane and intracellular view, respectively. d The binding site of the uridine molecule (shown in green) and the sodium ion (shown as a violet sphere) located inside the crystal structure of vcCNT. The polar contacts between uridine and the transporter were depicted with yellow dashed lines. The indicated Gln154 in vcCNT corresponds to Gln251 in the model of hCNT3. e The sequence alignment of the template sequence (vcCNT) and the target sequence (hCNT3). Transmembrane helices (TMHs) are shown in red, extracellular and short helices (EH) in green, amphipathic helices (IH) are shown in blue and finally helices outside the lipid bilayer (HP) are shown in grey

Molecular dynamics simulation

The MD simulation was performed using the GPU-accelerated NAMD [32] software with the CHARMM27 [33] all-atom force field and periodic boundary conditions. Electrostatic interactions were computed using the particle-mesh Ewald method (PME) with a real space cutoff of 1.0 nm. The Lennard-Jones interactions were also cut off at 1.0 nm. The hCNT3 homotrimer model was inserted in a pre-equilibrated palmitoyloleoylphosphatidylcholine (POPC) membrane with VMD [34, 35]. The final lipid membrane was composed of 349 lipids. The system was solvated using the TIP3P water model (41,236 water molecules) and neutralized by adding 35 chloride counterions. Aspartic acid, arginine, glutamic acid, and lysine residues were used in their physiological protonation states. Neither uridine nor sodium ion molecules which were present in the vcCNT template structure were added to the system. The final system contained a total number of 195,438 atoms. The equilibration phase started with the 1 ns long melting of lipid tails while the rest of the system remained fixed. Then, after the steepest descent system minimization only protein coordinates were harmonically restrained and the 2 ns equilibration of the whole system was performed. Finally, the harmonic constraints were released and the further equilibration of the whole system lasted for 2 ns. The size of the final periodic box after the equilibration phase was 14.8 nm × 14.5 nm × 105 nm. The 100 ns production run was executed using a 2 fs time step with a snapshot of the system conformation and its energy saved every 20 ps and 10 ps, respectively. The pressure control was provided by using a modified Nosé-Hoover method in which Langevin dynamics is used to control fluctuations in the barostat. The thermostat was provided by Langevin dynamics with damping coefficient of 1/ps. The simulation was conducted at the conditions of 300 K and 1 atm. RMSD plots (see Figs. 3, 4, 5 and 6) describing the hCNT3 behavior during the MD simulation were prepared with VMD.

The heavy atom RMSD plot computed for all 5000 frames recorded during the 100 ns MD simulation. RMSD was computed for the entire hCNT3 homotrimer and its three subunits with respect to the first frame of the MD simulation

CRFR1 model building

To build the CRFR1 model a standalone version of GPCRM described previously [5] was used. The human glucagon receptor (GCGR) structure (PDB id: 4L6R) [36] from the secretin-like branch of the GPCR family was selected as a template. To generate the CRFR1 model a PDB sequence was used (PDB id: 4K5Y, Uniprot entry: P34998, isoform 2 – CRF-R2). The isoform 2 differs from the canonical CRF-R1 sequence only in such way that a part of the sequence is missing. GPCRM generated 3000 models. Only one out of the ten best models proposed by GPCRM was selected for the next stage based on the RMSD criterion referring to the crystal CRFR1 structure (PDB id: 4K5Y). The membrane topology prediction for the Rosetta Broker input was extracted directly from the CRFR1 model. The Broker simulations were divided into 3 stages. In the first stage, only the N-terminal fragment of the transmembrane helix 1 (TMH1) was reconstructed (2000 models) and the lowest RMSD model was selected. In the next step, TMH2, TMH3, TMH4, TMH5, TMH7 were rebuilt (30,000 models) and again the lowest RMSD model with respect to the crystal structure of CRFR1 was selected. In the final step of the Broker simulation TMH6 was reconstructed to fit the native structure [28] of CRFR1 (20,000 models). As it was tested before [5] the best way to impose disulfide bonds in a GPCR model is to use MODELLER. For that reason, the last modeling stage was devoted to the MODELLER reconstruction of disulfide bonds which were slightly deformed during the Broker simulation (100 models). The lowest MODELLER objective function model was selected for the antagonist docking in Autodock VINA [37].

As it was mentioned above, the main selection criterion in all the CRFR1 modeling stages was RMSD with respect to the CRFR1 crystal structure (PDB id: 4K5Y). The reason for that was the main purpose of the current work. Namely, the current work was not focused on the assessment of the Rosetta Broker force field accuracy. The accuracy of knowledge-based force fields in the membrane protein structure prediction is an important topic [38] but outside the scope of this study. Here, only the best possible results which could be obtained with the current force field and the current sampling algorithm implemented in Broker were examined. That is why only the RMSD criterion was used and not the energy criterion for the CRFR1 models selection.

Small molecule docking

The binding mode of the CRFR1 antagonist CP-376395 is well described in [28] and the current study was not focused on the antagonist docking itself. Instead, this work was focused on the assessment of the quality of the CRFR1 homology model in the binding site area and detection of possible atom clashes. For that reason, the CP-376395 molecule was placed exactly in the same position inside the CRFR1 homology model as in the crystal CRFR1 structure. What is more, only the local refinement of the binding site was performed with Autodock VINA [37] before computing the value of the empirical docking scoring function which estimated the free energy of the ligand binding. The free energy of the antagonist binding which reflected steric clashes between atoms [37] was provided for three cases. The first case was the crystal structure of the CRFR1 complex with the CP-376395 antagonist (PDB id: 4K5Y). The second case was the template-based CRFR1 model built by GPCRM with CP-376395 transferred from the crystal CRFR1 structure and placed exactly in the same position and orientation. The third case was the CRFR1 model built by GPCRM but refined with the Broker algorithm with CP-376395 transferred from the crystal CRFR1 structure (PDB id: 4K5Y). In the all three cases the standard Autodock VINA settings were used together with the local_only option and the 20Åx20Åx20Å searching space size.

Single nucleotide polymorphisms

Single nucleotide polymorphisms (SNPs) for hCNT3 were downloaded from the UCSF Pharmacogenetics of Membrane Transporters (PMT) database (http://pharmacogenetics.ucsf.edu) (HGNC id: 16,484, HGNC symbol: SLC28A3) [39]. SNPs for the CRFR1 receptor were obtained from the National Institute of Health Short Genetic Variations database (dbSNP) [40] (id: 1394) and refer to the isoform 1 (CRF-R1). Nevertheless, sequence numbering for SNPs was adjusted to fit the isoform 2 sequence (CRF-R2) which was used to build the CRFR1 model and was included in the PDB entry for that receptor (PDB id: 4K5Y).


Transmembrane helix prediction methods

Claros, M. G., & Von Heijne, G. (1994). TopPred II: an improved software for membrane protein structure predictions. Computer Applications in the Biosciences CABIOS DOI

Rost, B., Casadio, R., Fariselli, P., & Sander, C. (1995). Transmembrane helices predicted at 95% accuracy. Ciência de Proteínas DOI

Tusnády, G. E., & Simon, I. (2001). The HMMTOP transmembrane topology prediction server. Bioinformatics DOI

Krogh, A., Larsson, B., von Heijne, G., & Sonnhammer, E. L. (2001). Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. Journal of Molecular Biology DOI

Hirokawa, T., Boon-Chieng, S., & Mitaku, S. (1998). SOSUI: classification and secondary structure prediction system for membrane proteins. Bioinformatics DOI

Käll, L., Krogh, A., & Sonnhammer, E. L. L. (2004). A combined transmembrane topology and signal peptide prediction method. Journal of Molecular Biology DOI

Käll, L., Krogh, A., & Sonnhammer, E. L. L. (2005). An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformatics DOI

Jones, D. T. (2007). Improving the accuracy of transmembrane protein topology prediction using evolutionary information. Bioinformatics DOI

Reynolds, S. M., Käll, L., Riffle, M. E., Bilmes, J. a, & Noble, W. S. (2008). Transmembrane topology and signal peptide prediction using dynamic bayesian networks. PLoS Computational Biology DOI

Bernsel, A., Viklund, H., Falk, J., Lindahl, E., Von Heijne, G., & Elofsson, A. (2008). Prediction of membrane-protein topology from first principles. Proceedings of the National Academy of Sciences DOI

Viklund, H., Bernsel, A., Skwark, M., & Elofsson, A. (2008). SPOCTOPUS: a combined predictor of signal peptides and membrane protein topology. Bioinformatics DOI

Nugent, T., & Jones, D. T. (2009). Transmembrane protein topology prediction using support vector machines. BMC Bioinformática DOI


Assista o vídeo: Sistema de endomembranas. Estrutura celular. Biologia. Khan Academy (Janeiro 2022).