Em formação

Aumentar o valor de k na cobertura k-fold requer mais memória?


Estude:

Aqui está o que é cobertura k-fold, que é conhecida como cobertura de sequência.

De acordo com isso, a cobertura de 2 vezes significa que todo o DNA é sequenciado mais duas vezes, em média.

Pergunta:

Se eu tiver uma sequência de genoma de comprimento x com cobertura de 30 vezes, qual das alternativas a seguir é a correta?

  1. Eu tenho que ocupar 30x a memória para a sequência do genoma, isso significa que eu receberia a sequência do genoma de 30x de comprimento.
  2. Isso significa que eu receberia a sequência do genoma de comprimento x, mas a sequência é mais purificada de acordo com o cálculo.

No Sequenciamento de Próxima Geração (ou melhor chamado de sequenciamento de 2ª geração), você está sequenciando muitos genomas pequenos fragmentos cortado de muitas moléculas de DNA. Multiplicar moléculas, cortá-las em fragmentos e amplificá-las é conhecido como preparação de biblioteca (biblioteca de fragmentos a serem lidos). Durante esse processo (do qual a PCR é um procedimento importante), diferentes erros ou tendências podem ser introduzidos.

O que você obtém de um sequenciador é muito curto na forma de arquivos FASTQ que você precisa para montar na sequência do genoma (por de novo montagem ou, mais comumente, por alinhamento ao genoma de referência). É importante saber o quanto temos certeza de cada nucleotídeo no genoma montado, que depende de quantas vezes (e com qual pontuação de qualidade) o sequenciador lê cada nucleotídeo (veja a imagem abaixo).


(fonte: davidson.edu)

A cobertura pode significar a cobertura média em todo o genoma ou a cobertura de alguma porção menor dele (a cobertura diferente em todo o genoma é geralmente devido aos preconceitos mencionados introduzidos na preparação da biblioteca).

Para responder à pergunta: Na representação final, você obtém um genoma inteiro montado, se tudo o que você precisa é a representação final (portanto, resposta 2). Se você também armazenar leituras, mais cobertura significa mais memória, mas o genoma final terá o mesmo comprimento.

NOTA: Cobertura é um termo ainda mais ambíguo que acabei de descrever, então você deve olhar este tópico para possíveis significados diferentes (por exemplo: qual parte de todo o genoma é coberta pelo sequenciamento).


Usando filtros Bloom em cascata para melhorar o uso de memória para gráficos de Brujin

Os gráficos de De Brujin são amplamente usados ​​em bioinformática para processar dados de sequenciamento de última geração. Devido ao grande tamanho dos conjuntos de dados NGS, é essencial representar os gráficos de de Bruijn de forma compacta, e várias abordagens para este problema foram propostas recentemente.

Resultados

Neste trabalho, mostramos como reduzir a memória exigida pela estrutura de dados de Chikhi e Rizk (WABI’12) que representa os gráficos de Brujin usando filtros Bloom. Nosso método requer 30% a 40% menos memória em relação ao seu método, com impacto insignificante no tempo de construção. Ao mesmo tempo, nossos experimentos mostraram um melhor tempo de consulta em comparação com o método de Chikhi e Rizk.

Conclusão

A estrutura de dados proposta constitui, até onde sabemos, atualmente a representação prática mais eficiente dos grafos de de Bruijn.


Este tópico tem sido amplamente discutido tanto neste site, quanto na literatura científica, com visões, intuições e conclusões conflitantes. Em 2013, quando esta pergunta foi feita pela primeira vez, a visão dominante era que LOOCV leva a uma variação maior do erro de generalização esperado de um algoritmo de treinamento produzindo modelos a partir de amostras de tamanho $ n (K − 1) / K $.

Esta visão, no entanto, parece ser um generalização incorreta de um caso especial e eu diria que a resposta correta é: "depende. "

Parafraseando Yves Grandvalet, o autor de um artigo de 2004 sobre o tema, eu resumiria o argumento intuitivo da seguinte maneira:

  1. Se a validação cruzada estava calculando a média de estimativas independentes: então, deixe um de fora, deve-se ver uma variação relativamente menor entre os modelos, uma vez que estamos apenas deslocando um ponto de dados entre as dobras e, portanto, os conjuntos de treinamento entre as dobras se sobrepõem substancialmente.
  2. Isso não é verdade quando os conjuntos de treinamento são altamente correlacionados: A correlação pode aumentar com K e esse aumento é responsável pelo aumento geral da variância no segundo cenário. Intuitivamente, nessa situação, o CV leave-one-out pode ser cego às instabilidades existentes, mas não pode ser acionado pela alteração de um único ponto nos dados de treinamento, o que o torna altamente variável para a realização do conjunto de treinamento.

Simulações experimentais minhas e de outras pessoas neste site, bem como as de pesquisadores nos artigos relacionados abaixo, mostrarão que não existe uma verdade universal sobre o assunto. A maioria dos experimentos tem variação monotonicamente decrescente ou constante com $ K $, mas alguns casos especiais mostram variação crescente com $ K $.

O restante desta resposta propõe uma simulação em um exemplo de brinquedo e uma revisão informal da literatura.

[Atualização] Você pode encontrar aqui uma simulação alternativa para um modelo instável na presença de outliers.


COMENTÁRIO

Informação de Fundo

Duas proteínas seriam homólogas se descendessem de um ancestral comum. Geralmente, as proteínas homólogas têm uma estrutura semelhante e, dependendo do grau de divergência, funções semelhantes, localização celular ou ligantes. Uma vez que a homologia de proteínas oferece uma fonte rica de informações funcionais e estruturais, a inferência da homologia se tornou uma ferramenta essencial na pesquisa de biologia molecular e sustenta o uso de organismos modelo para estudar processos biológicos. A evolução divergente de proteínas de formas ancestrais hipotéticas é geralmente inferida da semelhança de representantes modernos. Essas comparações são geralmente feitas com dados de sequência porque o espaço da sequência é essencialmente infinito e a convergência por acaso é, portanto, improvável. Em contraste, o número de conformações dobradas disponíveis para a cadeia polipeptídica é limitado. Conseqüentemente, proteínas não relacionadas tendem a convergir em soluções estruturais semelhantes, especialmente no nível de subdomínio. Além disso, os dados de sequência são mais fáceis de obter do que os dados estruturais e, portanto, mais abundantes em ordens de magnitude. Ao longo dos anos, muitos métodos diferentes de comparação de sequência foram desenvolvidos. Eles alcançam diferentes níveis de sensibilidade, dependendo da quantidade de informações que incorporam. Métodos que comparam sequências de proteínas individuais, como BLAST, são os menos sensíveis, pois usam apenas as informações da comparação par a par de duas sequências, pontuadas por uma matriz de substituição global. Um nível adicional de sensibilidade é alcançado por métodos que comparam perfis de sequência a sequências, como a versão iterada de BLAST, PSI-BLAST. Os perfis registram as frequências dos 20 aminoácidos para cada coluna de um MSA e, portanto, incluem informações específicas da família para a sequência de consulta. Métodos de comparação de perfil a perfil, como COMPASS (Sadreyev, Tang, Kim, & Grishin, 2009), fornecem uma melhoria adicional ao usar informações específicas da família para ambas as sequências que estão sendo comparadas. A incorporação de frequências de inserção e exclusão específicas de posição em perfis produz modelos de Markov ocultos de perfil (HMMs). Métodos baseados em comparação de HMM para HMM, como HHpred, são atualmente nossas ferramentas mais sensíveis na detecção de similaridade de sequência.

Resultados de compreensão

  • Verifique a probabilidade e o valor E: O valor de probabilidade relatado por HHpred para uma correspondência ser um verdadeiro positivo é o critério mais importante para inferir se uma correspondência é homóloga à consulta ou é apenas um acerto de chance de alta pontuação. Quando é maior que 95%, a relação evolutiva é altamente provável. Normalmente, deve-se considerar seriamente a correspondência se ela tiver um valor de probabilidade & gt50% ou se tiver um valor de probabilidade & gt30% e estiver entre os três principais acertos. O valor E é uma medida alternativa de significância estatística. É o número de acertos aleatórios com uma pontuação melhor do que aquela para a correspondência fornecida que se espera encontrar no banco de dados de destino. Quanto menor o valor E, mais significativa é a correspondência. Ao contrário da probabilidade verdadeiro-positiva, o valor E de HHpred não leva em consideração a similaridade da estrutura secundária. Portanto, é uma medida menos sensível do que a probabilidade. Consequentemente, mesmo quando o valor E é ∼1, as correspondências podem ser significativas pelo critério de probabilidade.
  • Verifique a similaridade da estrutura secundária: Se a estrutura secundária da consulta e correspondência for substancialmente diferente, a correspondência provavelmente é um falso positivo.
  • Verifique as relações entre os principais sucessos: Se várias das principais correspondências forem homólogas entre si, por exemplo, quando são membros da mesma superfamília SCOPe ou nível de homologia ECOD, então a probabilidade de serem homólogas à consulta é muito alta.
  • Verifique se a homologia é biologicamente sugestiva: A ocorrência do banco de dados tem uma função que você esperaria para sua consulta? Vem de um organismo que provavelmente contém um homólogo de sua proteína query?
  • Verifique se há possíveis motivos conservados: A maioria dos pares homólogos de proteínas terá pelo menos um motivo (semi-) conservado em comum. Você pode identificar esses motivos putativos (semi-) conservados inspecionando os alinhamentos HHpred para grupos de três ou mais colunas bem correspondentes (marcadas com um sinal '|' na linha entre a consulta e as sequências de consenso do modelo) e também combinando sequências de consenso . Algumas correspondências falso-positivas podem ter pontuações altas devido a possuírem uma composição de aminoácidos semelhante à da consulta. Nesses casos, os alinhamentos tendem a ser longos e sem motivos conservados. Você também pode escanear os alinhamentos em busca de motivos conhecidos por estarem envolvidos na função enzimática ou na ligação de ligantes, como o motivo de ligação de GTP discutido neste relatório.
  • Verifique os alinhamentos da consulta e do modelo: Uma consulta corrompida ou alinhamento de modelo é a principal fonte de falsos positivos com pontuação elevada. As duas fontes mais comuns de corrupção em um alinhamento são (1) sequências não homólogas, especialmente sequências repetitivas ou de baixa complexidade no alinhamento, e (2) fragmentos não homólogos nas extremidades das sequências de banco de dados alinhadas. Inspecione a consulta e o modelo de MSAs quanto à presença de sequências espúrias. Na verdade, o servidor HHpred exibe uma mensagem de alerta quando segmentos de bobina, transmembrana ou de baixa complexidade são detectados na consulta.
  • Verifique se você pode reproduzir os resultados com outros parâmetros: Por exemplo, se você espera que a consulta seja globalmente homóloga ao suposto homólogo, pode executar novamente a pesquisa usando o modo de alinhamento global em vez do local. Você pode desativar a pontuação da estrutura secundária se suspeitar que a correspondência entre a consulta e o modelo recebeu uma pontuação alta devido a uma probabilidade de similaridade de suas estruturas secundárias preditas por PSIPRED ou determinadas por DSSP. Você também pode executar a consulta em outros bancos de dados para verificar se correspondências semelhantes são retornadas.

Agradecimentos

Gostaríamos de agradecer a Andre Noll e Johannes Wörner por suas contribuições para o desenvolvimento do Toolkit. Este trabalho foi financiado por fundos institucionais da Max Planck Society.


Conclusão

À medida que a compreensão da conectividade de circuitos cerebrais saudáveis ​​e doentes evolui, fica aparente que a acumulação aberrante, o tráfego, o dobramento incorreto e a agregação afetam o PPI celular, o que acaba prejudicando a função neuronal. A trajetória usual para a análise PPIN é obter dados de alta confiança, analisar os resultados usando abordagens de biologia de sistemas, validar a interação priorizada por meio de abordagens alternativas e, potencialmente, descobrir novos alvos terapêuticos. Para um maior impacto na neurociência, é crucial identificar os principais módulos funcionais alterados durante o desenvolvimento ou progressão da doença, compreender suas relações moleculares subjacentes e determinar os marcadores que informam sobre a patogênese. À medida que o campo da neuroproteômica se expande, é importante lembrar que o desenho do estudo rigoroso e os critérios estatísticos são tão importantes quanto as questões bem definidas. Com avanços técnicos constantes, os estudos PPIN estão preparados para fornecer percepções transformadoras sobre o desenvolvimento neuronal e a neuropatologia, inaugurando uma era de ouro da neurobiologia.


Mais sobre

Teste de Curvatura

o teste de curvatura é um teste estatístico que avalia a hipótese nula de que duas variáveis ​​não estão associadas.

O teste de curvatura entre a variável preditora x e y é conduzido usando este processo.

Se x é contínua, então divida-a em seus quartis. Crie uma variável nominal que armazene as observações de acordo com a seção da partição que ocupam. Se houver valores ausentes, crie um compartimento extra para eles.

Para cada nível no preditor particionado j = 1. J e classe na resposta k = 1. K, calcule a proporção ponderada de observações em aula k

Ceu é o peso da observação eu, ∑ w i = 1, eu é a função do indicador, e n é o tamanho da amostra. Se todas as observações tiverem o mesmo peso, então π ^ j k = n j k n, onde njk é o número de observações no nível j do preditor que está na aula k.

Calcule a estatística de teste

t = n ∑ k = 1 K ∑ j = 1 J (π ^ j k - π ^ j + π ^ + k) 2 π ^ j + π ^ + k

π ^ j + = ∑ k π ^ j k, ou seja, a probabilidade marginal de observar o preditor no nível j. π ^ + k = ∑ j π ^ j k, que é a probabilidade marginal de observar a classe k. Se n é grande o suficiente, então t é distribuído como um χ 2 com (K – 1)(J & # 8211 1) graus de liberdade.

Se o p-valor para o teste é menor que 0,05, então rejeite a hipótese nula de que não há associação entre x e y.

Ao determinar o melhor preditor de divisão em cada nó, o algoritmo CART padrão prefere selecionar preditores contínuos que possuem muitos níveis. Às vezes, essa seleção pode ser espúria e também pode mascarar preditores mais importantes que têm menos níveis, como preditores categóricos.

O teste de curvatura pode ser aplicado em vez do CART padrão para determinar o melhor preditor de divisão em cada nó. Nesse caso, a melhor variável preditora de divisão é aquela que minimiza o significativo p-valores (aqueles menores que 0,05) dos testes de curvatura entre cada preditor e a variável de resposta. Essa seleção é robusta para o número de níveis em preditores individuais.

Se os níveis de um preditor forem puros para uma classe específica, fitctree mesclará esses níveis. Portanto, na etapa 3 do algoritmo, J pode ser menor que o número real de níveis no preditor. Por exemplo, se x tem 4 níveis, e todas as observações nas caixas 1 e 2 pertencem à classe 1, então esses níveis são puros para a classe 1. Consequentemente, fitctree mescla as observações nas caixas 1 e 2, e J reduz para 3.

Para obter mais detalhes sobre como o teste de curvatura se aplica a árvores de classificação em crescimento, consulte Regras de divisão de nós e [4].

Impureza e erro de nó

Uma árvore de decisão divide nós com base em qualquer impureza ou erro de nó.

Impureza significa uma de várias coisas, dependendo da sua escolha do argumento do par nome-valor SplitCriterion:

Índice de Diversidade de Gini (gdi) & # 8212 O índice de Gini de um nó é

onde a soma é sobre as aulas eu no nó, e p(eu) é a fração observada de classes com classe eu que alcançam o nó. Um nó com apenas uma classe (um puro nó) tem índice de Gini 0, caso contrário, o índice de Gini é positivo. Portanto, o índice de Gini é uma medida da impureza do nó.

Desvio ('desvio') & # 8212 com p(eu) definido da mesma forma que para o índice de Gini, o desvio de um nó é

Um nó puro tem desvio 0, caso contrário, o desvio é positivo.

Regra de Twoing ('twoing') & # 8212 Twoing não é uma medida de pureza de um nó, mas é uma medida diferente para decidir como dividir um nó. Deixar eu(eu) denotam a fração de membros da classe eu no nó filho esquerdo após uma divisão, e R(eu) denotam a fração de membros da classe eu no nó filho direito após uma divisão. Escolha o critério de divisão para maximizar

P (L) P (R) (∑ i | L (i) - R (i) |) 2,

Onde P(eu) e P(R) são as frações de observações que se dividem para a esquerda e para a direita, respectivamente. Se a expressão for grande, a divisão tornará cada nó filho mais puro. Da mesma forma, se a expressão for pequena, a divisão tornará cada nó filho semelhante entre si e, portanto, semelhante ao nó pai. A divisão não aumentou a pureza do nó.

Erro de nó & # 8212 O erro de nó é a fração de classes classificadas incorretamente em um nó. Se j é a classe com o maior número de amostras de treinamento em um nó, o erro do nó é

Teste de Interação

o teste de interação é um teste estatístico que avalia a hipótese nula de que não há interação entre um par de variáveis ​​preditoras e a variável de resposta.

O teste de interação avaliando a associação entre variáveis ​​preditoras x1 e x2 em relação a y é conduzido usando este processo.

Se x1 ou x2 é contínua, então particione essa variável em seus quartis. Crie uma variável nominal que armazene as observações de acordo com a seção da partição que ocupam. Se houver valores ausentes, crie um compartimento extra para eles.

Crie a variável nominal z com J = J1J2 níveis que atribuem um índice à observação eu de acordo com quais níveis de x1 e x2 ele pertence. Remova todos os níveis de z que não correspondem a quaisquer observações.

Ao aumentar as árvores de decisão, se houver interações importantes entre pares de preditores, mas também houver muitos outros preditores menos importantes nos dados, o CART padrão tende a perder as interações importantes. No entanto, a condução de testes de curvatura e interação para seleção de preditor pode melhorar a detecção de interações importantes, o que pode gerar árvores de decisão mais precisas.

Para obter mais detalhes sobre como o teste de interação se aplica a árvores de decisão crescentes, consulte Teste de Curvatura, Regras de Divisão de Nó e [3].

Medida Preditiva de Associação

o medida preditiva de associação é um valor que indica a semelhança entre as regras de decisão que dividem as observações. Entre todas as divisões de decisão possíveis que são comparadas à divisão ideal (encontrada pelo crescimento da árvore), a melhor divisão de decisão substituta produz a medida preditiva máxima de associação. A segunda melhor divisão substituta tem a segunda maior medida preditiva de associação.

Suponha xj e xk são variáveis ​​preditoras j e k, respectivamente, e jk. No nó t, a medida preditiva de associação entre a divisão ideal xj & lt você e uma divisão substituta xk & lt v é

λ j k = min (P L, P R) - (1 - P L j L k - P R j R k) min (P L, P R).

Peu é a proporção de observações no nó t, de tal modo que xj & lt você. O subscrito eu representa o filho esquerdo do nó t.

PR é a proporção de observações no nó t, de tal modo que xjvocê. O subscrito R representa o filho certo do nó t.

P L j L k é a proporção de observações no nó t, de tal modo que xj & lt você e xk & lt v.

P R j R k é a proporção de observações no nó t, de tal modo que xjvocê e xkv.

Observações com valores ausentes para xj ou xk não contribuem para os cálculos das proporções.

Divisões de decisão substitutas

UMA divisão de decisão substituta é uma alternativa para a divisão de decisão ótima em um determinado nó em uma árvore de decisão. A divisão ideal é encontrada crescendo a árvore; a divisão substituta usa uma variável preditora e um critério de divisão semelhantes ou correlacionados.

Quando o valor do preditor de divisão ideal para uma observação está faltando, a observação é enviada para o nó filho esquerdo ou direito usando o melhor preditor substituto. Quando o valor do melhor preditor substituto de divisão para a observação também está ausente, a observação é enviada para o nó filho esquerdo ou direito usando o segundo melhor preditor substituto e assim por diante. As divisões de candidatos são classificadas em ordem decrescente por sua medida preditiva de associação.

Por padrão, Prune está 'ligado'. No entanto, esta especificação não remove a árvore de classificação. Para podar uma árvore de classificação treinada, passe a árvore de classificação para podar.

Depois de treinar um modelo, você pode gerar código C / C ++ que prevê rótulos para novos dados. A geração de código C / C ++ requer o codificador MATLAB & # x2122. Para obter detalhes, consulte Introdução à geração de código.


Fundamentos de validação de cluster

Determinando as número ideal de clusters em um conjunto de dados é uma questão fundamental no particionamento de clustering, como clustering k-means, que requer que o usuário especifique o número de clusters k a serem gerados.

Infelizmente, não há uma resposta definitiva para essa pergunta. O número ideal de clusters é de alguma forma subjetivo e depende do método usado para medir semelhanças e dos parâmetros usados ​​para particionamento.
Uma solução simples e popular consiste em inspecionar o dendrograma produzido usando agrupamento hierárquico para ver se ele sugere um determinado número de clusters. Infelizmente, essa abordagem também é subjetiva.

Neste capítulo, descreveremos diferentes métodos para determinar o número ideal de clusters para k-médias, k-medoides (PAM) e agrupamento hierárquico.

Esses métodos incluem métodos diretos e métodos de teste estatístico:

  1. Métodos diretos: consiste na otimização de um critério, como a soma dos quadrados dentro do cluster ou a silhueta média. Os métodos correspondentes são nomeados cotovelo e silhueta métodos, respectivamente.
  2. Métodos de teste estatístico: consiste em comparar a evidência com a hipótese nula. Um exemplo é o estatística de lacuna.

Além de cotovelo, silhueta e estatística de lacuna métodos, existem mais de trinta outros índices e métodos que foram publicados para identificar o número ideal de clusters. Forneceremos códigos R para calcular todos esses 30 índices, a fim de decidir o melhor número de clusters usando a "regra da maioria".


CONTRIBUIÇÕES DO AUTOR

NN, CF, MC e AMCF conceberam e projetaram o estudo MC, CM e GP coletaram amostras e extraíram o DNA livre de células YVT e NN projetaram a análise de dados YVT realizou a análise de dados YVT, NN, MC e CF escreveram o manuscrito.

Nome do arquivo Descrição
acel12890-sup-0001-FigS1.pdf Documento PDF, 1 MB
documento acel12890-sup-0002-FigS2.pdfPDF, 2,8 MB
acel12890-sup-0003-FigS3.pdf Documento PDF, 4,9 MB
acel12890-sup-0004-FigS4.pdf Documento PDF, 896,3 KB
acel12890-sup-0005-FigS5.pdf Documento PDF, 2,2 MB
acel12890-sup-0006-FigS6.pdf Documento PDF, 337,8 KB
acel12890-sup-0007-TableS1-S5.docx Documento do Word, 576 KB

Observação: O editor não é responsável pelo conteúdo ou funcionalidade de qualquer informação de suporte fornecida pelos autores. Quaisquer dúvidas (que não sejam de conteúdo ausente) devem ser direcionadas ao autor correspondente do artigo.


Com que frequência você deve lavar o cabelo?

Quantas vezes por semana você acha que deveria lavar o cabelo? Todos os dias? Qualquer outro dia? De acordo com os tricologistas, o termo técnico para profissionais de saúde especializados em cabelo e couro cabeludo é caminho muitas vezes.

“Alguém com cabelo fino, fino ou delicado deve evitar lavar com muita frequência - não mais do que duas vezes por semana - deve ajudar a manter a produção de óleo natural, enquanto atinge o equilíbrio da umidade”, diz Andrea L. Hayden, Diretora da Associação Internacional de Tricologistas (EUA) e proprietário do The Hair Management Group em San Antonio, TX.

E se você tiver cabelos grossos ou cacheados, tente uma vez a cada sete dias. “A textura grossa ou o cabelo crespo natural leva mais tempo para estabelecer uma boa quantidade de óleos naturais, então a lavagem pode ser adiada para uma vez por semana. Uma pessoa pode refrescar o cabelo / couro cabeludo no meio da semana, se necessário, simplesmente aplicando um condicionador e enxaguando bem. ”


Reconhecimentos

Gostaríamos de agradecer ao Dr. David O'Brochta, ao Dr. Zhijian Jake Tu e ao Dr. Lujuan Sun por seu incentivo para escrever esta revisão. Agradecemos também aos autores de todos os artigos sobre genoma de insetos por suas contribuições neste campo. Devido às limitações de espaço, é impossível apresentar todos os genomas de insetos e citar todas as referências relevantes. Os trabalhos dos autores são apoiados conjuntamente pelo Programa Nacional de Pesquisa e Desenvolvimento (2016YFC1200600, 2017YFD0200904, 2017YFC1200602), a Fundação Nacional de Ciência da China (31772238, 31672033, 31760514, 31701785) e o projeto principal da Fundação de Ciência de Zhejiang da China ( LZ18C060001). Os autores declaram não haver conflitos de interesse.


Assista o vídeo: Não use Cloreto de Potássio sem ver esse vídeo - IMPORTANTE (Novembro 2021).