Em formação

Um grande tamanho populacional efetivo resulta em um declínio mais rápido do desequilíbrio de ligação (LD)?


Estou pensando em uma espécie invasora que foi introduzida na América do Norte há apenas algumas (<20) gerações. Usando genótipos de microssatélites (105 loci), não identifiquei quase nenhuma ligação significativa no genoma. Estou tentado a especular que isso tem algo a ver com a rápida expansão da população que fez com que o LD decaísse tão rapidamente, mas não tenho certeza se essa é uma linha de pensamento razoável. Alguém consegue pensar em por que isso pode ou não ser o caso?


É certamente possível, pois sim, o rápido crescimento populacional reduzirá a LD. De Slatkin, 1994:

Em uma população em rápido crescimento, entretanto, haverá pouca chance de encontrar associações não aleatórias significativas, mesmo entre loci completamente ligados, se o crescimento tiver sido suficientemente rápido.

Or Nature Reviews, 2002

Przeworski… mostrou que o crescimento populacional tende a diminuir a extensão da DL, especialmente por períodos mais longos de crescimento. Em contraste, a subdivisão da população tende a aumentar a extensão da LD, especialmente quando uma amostra contém indivíduos de várias subpopulações fortemente diferenciadas.

Veja também a caixa 1:

O rápido crescimento populacional diminui a LD, reduzindo a deriva genética.


Estimativas de desequilíbrio de ligação e tamanho efetivo da população na truta arco-íris

O uso de tecnologias de genética molecular para manejo de reprodutores e reprodução seletiva de espécies de aquicultura está se tornando cada vez mais comum com o desenvolvimento contínuo de ferramentas e reagentes do genoma. Vários laboratórios produziram mapas genéticos para a truta arco-íris para auxiliar na identificação de loci que afetam fenótipos de interesse. Esses mapas resultaram na identificação de muitos loci de características quantitativas / qualitativas que afetam a variação fenotípica nas características associadas ao albinismo, resistência a doenças, tolerância à temperatura, determinação do sexo, taxa de desenvolvimento embrionário, data de desova, fator de condição e crescimento. Infelizmente, a elucidação da variação alélica precisa e / ou genes subjacentes à diversidade fenotípica ainda não foi alcançada nesta espécie com baixas densidades de marcadores e sem uma sequência de referência do genoma completo. Projetos experimentais que integram análises de segregação com abordagens de desequilíbrio de ligação (LD) facilitam a descoberta de genes que afetam características importantes. Até o momento, a extensão da LD foi caracterizada para humanos e várias espécies animais importantes para a agricultura, mas não para a truta arco-íris.

Resultados

Observamos que o nível de LD entre os loci sintênicos decaiu rapidamente em distâncias maiores que 2 cM, o que é semelhante às observações de LD em outras espécies agrícolas importantes, incluindo gado, ovelhas, porcos e galinhas. No entanto, em alguns casos LD significativo também foi observado até 50 cM. Nossa estimativa do tamanho efetivo da população com base nas estimativas do genoma de LD para a população de reprodutores NCCCWA foi de 145, indicando que esta população responderá bem à alta intensidade de seleção. No entanto, a faixa de tamanho efetivo da população com base em cromossomos individuais foi 75,51 - 203,35, possivelmente indicando que suítes de genes em cada cromossomo estão desproporcionalmente sob pressão de seleção.

Conclusões

Nossos resultados indicam que um grande número de marcadores, mais do que os atualmente disponíveis para esta espécie, serão necessários para permitir o uso de abordagens de mapeamento integrado em todo o genoma destinadas a identificar genes de interesse na truta arco-íris.


Estimativa do desequilíbrio de ligação e do tamanho efetivo da população em três raças de carne autóctone italiana

Os autores revisaram o manuscrito de acordo com a maioria dos comentários. Pelo que me lembro, as principais preocupações eram a análise de PCA e a seção de Discussão que lembrava uma longa revisão da literatura. Não estou convencido com a resposta ao primeiro e mais importante comentário. Os autores fornecem figuras de 4 GRM e mencionam que é muito análogo a conduzir uma PCA em um GRM. Bem, não é. Eles extraíram um conjunto de parâmetros de cada GRM e, juntos, analisaram em um PCA para representar um PCA em um GRM multi-raças. Como mencionei antes, é incorreto e enganoso. Os autores são encorajados a realizar uma PCA em um GRM combinado das 4 raças. Consulte este artigo como exemplo: & ldquoDesequilíbrio de ligação em todo o genoma e diversidade genética em cinco populações de ovelhas domésticas australianas & rdquo.

Além disso, os mapas de calor na Figura 1 devem seguir a mesma escala de cores (

AU: Agradecemos aos revisores por sua revisão. Veja abaixo nossas respostas aos pontos levantados. Todas as nossas respostas são precedidas por & ldquoAU & rdquo. As mudanças no manuscrito são feitas em mudanças de faixa e destacadas em amarelo. Esperamos encontrar a nova versão do manuscrito adequada para publicação na revista & ldquoAnimals & rdquo.

Ansioso por saber sobre você.

Os autores revisaram o manuscrito de acordo com a maioria dos comentários. Pelo que me lembro, as principais preocupações eram a análise de PCA e a seção de Discussão que lembrava uma longa revisão da literatura. Não estou convencido com a resposta ao primeiro e mais importante comentário. Os autores fornecem figuras de 4 GRM e mencionam que é muito análogo a conduzir uma PCA em um GRM. Bem, não é. Eles extraíram um conjunto de parâmetros de cada GRM e, juntos, analisaram em um PCA para representar um PCA em um GRM multi-raças. Como mencionei antes, é incorreto e enganoso. Os autores são encorajados a realizar uma PCA em um GRM combinado das 4 raças. Consulte este artigo como exemplo: & ldquoDesequilíbrio de ligação em todo o genoma e diversidade genética em cinco populações de ovelhas domésticas australianas & rdquo.

Além disso, os mapas de calor na Figura 1 devem seguir a mesma escala de cores (

AU: Estamos convencidos de que a PCA pode ser realizada em qualquer conjunto de variáveis ​​e também neste caso, a análise de PCA seria útil para dar um quadro geral dessas raças. No entanto, o PCA foi removido do manuscrito.

As cores do mapa de calor foram modificadas conforme solicitado.

Acho que os autores fizeram um grande esforço para considerar meus comentários.

Eles obviamente não entenderam minha observação sobre o PLINK.

Eles usam duas grafias diferentes. Isso deve ser harmonizado.

A versão oficial parece ser "PLINK".

AU: Agradecemos aos revisores por sua revisão. Veja abaixo nossas respostas aos pontos levantados. Todas as nossas respostas são precedidas por & ldquoAU & rdquo. As mudanças no manuscrito são feitas em mudanças de faixa e destacadas em amarelo. Esperamos encontrar a nova versão do manuscrito adequada para publicação na revista & ldquoAnimals & rdquo.

Ansioso por saber sobre você.

Acho que os autores fizeram um grande esforço para considerar meus comentários.

Eles obviamente não entenderam minha observação sobre o PLINK.

Eles usam duas grafias diferentes. Isso deve ser harmonizado.

A versão oficial parece ser "PLINK".

AU: Os autores pedem desculpas por não entender o que a revisão estava sublinhando. Em resumo, & ldquoplink & rdquo foi alterado para & ldquoPLINK & rdquo, como é chamado em Materiais e Métodos.

Os autores abordaram todas as questões propostas por todos os revisores e, portanto, recomendo aceitar o manuscrito revisado para publicação.

Os autores abordaram todas as questões propostas por todos os revisores e, portanto, recomendo aceitar o manuscrito revisado para publicação.

AU: Autores agradecem pela revisão.

Os autores fizeram uma grande revisão e o manuscrito melhorou consideravelmente. Existem pequenos problemas com o manuscrito que requerem correção.

L42: "PON faces hoje em dia" para "PON faces"
L58: "geralmente é" para "é"
L79: "mapeamento de genes" para "mapeamento de genes"
L80: "três bovinos de corte" para "três bovinos de corte italianos"
L91: "e equilibrado por sexo" para "com igual número de amostras masculinas e femininas"?
L135: "Opções padrão" a "Opções padrão"
L136: "MAF foi definido para & gt 0,01". Você não definiu o MAF para & gt 0,01. Você considerou alelos com MAF & gt 0,01. Esta frase é repetida a partir de L98. Por favor, exclua esta frase.
L137: "13 gerações vs. 4000 Kbp" precisa de esclarecimento.
L144: "por [39]" para "por Ohta e Kimura [39]"
L145: "o NEESTIMADOR" para "NEESTIMADOR"
L146: "e a frequência de alelo mais baixa usada para 0,01". É repetido algumas vezes antes.
L185-186: "0,104, 0,105, 0,106 e mais 0,08 Mbp em CAL, MUP e PON, LIM respectivamente". 3 valores para 4 raças! Por favor, seja mais cauteloso com erros após algumas rodadas de revisão.
L205: Exclua "e era intermediário para CAL e MUP".
L207: "flutuações estiveram presentes" para "mais flutuações estiveram presentes"
L207-209: Exclua essas linhas. Você não precisa repetir a figura inteira ou a tabela completamente no texto.
L222: "Mais precisamente" em comparação com o quê? Exclua-o.
L222: "PON e LIM apresentaram os dois extremos opostos" Você tem certeza que os dois extremos ?! Você pode dizer, um mostrando o mais alto e o outro mostrando o mais baixo.
L241: "Semelhante" a "Semelhante"
L243: "enquanto para PON Ne" para "enquanto para PON, Ne"
L245: "tendência histórica de LIM resultou extremamente diferente do que as raças locais" para "tendência histórica de LIM foi muito diferente daquelas para raças locais"
Discussão: Em um comentário anterior, pedi aos autores para encurtar a discussão. Desta vez, pulei a leitura. Se 53 referências foram necessárias para este estudo, eu não sei. Os autores devem considerar que estão escrevendo para que os leitores leiam e não pulem.

AU: Agradecemos ao revisor pela revisão construtiva. Veja abaixo nossas respostas aos pontos levantados. Todas as nossas respostas são precedidas por & ldquoAU & rdquo. Mudanças no manuscrito são feitas em mudanças de faixa. Esperamos encontrar a nova versão do manuscrito adequada para publicação na revista & ldquoAnimals & rdquo.

Ansioso por saber sobre você.

Os autores fizeram uma grande revisão e o manuscrito melhorou consideravelmente. Existem pequenos problemas com o manuscrito que requerem correção.

L42: "PON faces hoje em dia" para "PON faces"

AU: Alterado conforme sugerido (L43)

AU: Alterado conforme sugerido (L60)

L79: "mapeamento de genes" para "mapeamento de genes"

AU: Alterado conforme sugerido (L82)

L80: "três bovinos de corte" para "três bovinos de corte italianos"

AU: Alterado conforme sugerido (L83)

L91: "e equilibrado por sexo" para "com igual número de amostras masculinas e femininas"?

AU: o número de homens e mulheres foi adicionado ao manuscrito (L94)

L135: "Opções padrão" a "Opções padrão"

AU: Alterado conforme sugerido (L144)

L136: "MAF foi definido para & gt 0,01". Você não definiu o MAF para & gt 0,01. Você considerou alelos com MAF & gt 0,01. Esta frase é repetida a partir de L98. Por favor, exclua esta frase.

AU: Alterado conforme sugerido (L144-145)

L137: "13 gerações vs. 4000 Kbp" precisa de esclarecimento.

AU: Esses parâmetros são relatados pelo software e pelos autores citados

L144: "por [39]" para "por Ohta e Kimura [39]"

AU: Alterado conforme sugerido (L153)

L145: "o NEESTIMADOR" para "NEESTIMADOR"

AU: Alterado conforme sugerido (L155)

L146: "e a frequência de alelo mais baixa usada para 0,01". É repetido algumas vezes antes.

L185-186: "0,104, 0,105, 0,106 e mais 0,08 Mbp em CAL, MUP e PON, LIM respectivamente". 3 valores para 4 raças! Por favor, seja mais cauteloso com erros após algumas rodadas de revisão.

AU: os valores foram corrigidos. No entanto, CAL e MUP apresentaram o mesmo valor (0,105), ver Tabela S2

L205: Exclua "e era intermediário para CAL e MUP".

AU: Alterado conforme sugerido (L232)

L207: "flutuações estiveram presentes" para "mais flutuações estiveram presentes"

AU: Alterado conforme sugerido (L234)

L207-209: Exclua essas linhas. Você não precisa repetir a figura inteira ou a tabela completamente no texto.

AU: A sentença foi reduzida (L234)

L222: "Mais precisamente" em comparação com o quê? Exclua-o.

AU: Alterado conforme sugerido (L252)

L222: "PON e LIM apresentaram os dois extremos opostos" Tem certeza de que os dois extremos ?! Você pode dizer, um mostrando o mais alto e o outro mostrando o mais baixo.

AU: O significado da frase é que as duas raças estão em extremos opostos no gráfico. Os autores preferem deixar a frase como está para não repetir as expressões & ldquohigh & rdquo e & ldquolow & rdquo.

L241: "Semelhante" a "Semelhante"

AU: Alterado conforme sugerido (L274)

L243: "enquanto para PON Ne" para "enquanto para PON, Ne"

AU: Alterado conforme sugerido (L278)

L245: "tendência histórica de LIM resultou extremamente diferente do que as raças locais" para "tendência histórica de LIM foi muito diferente daquelas para raças locais"

AU: Alterado conforme sugerido (L280)

Discussão: Em um comentário anterior, pedi aos autores para encurtar a discussão. Desta vez, pulei a leitura. Se 53 referências foram necessárias para este estudo, eu não sei. Os autores devem considerar que estão escrevendo para que os leitores leiam e não pulem.

AU: Os autores agradecem ao revisor. Melhoramos a discussão, mas preferimos deixar as referências incluídas para permitir um exame aprofundado dos tópicos específicos para leitores interessados

os autores abordaram devidamente o meu ponto de crítica

de tal forma que recomendo a publicação do manuscrito.

AU: Agradecemos ao revisor pela revisão construtiva.

Este manuscrito é uma nova submissão de uma submissão anterior. A seguir está uma lista dos relatórios de revisão por pares e as respostas dos autores desse envio.

O manuscrito é sobre o estudo de LD e tamanho populacional efetivo em 3 raças locais de gado italiano e comparações com a raça Limousin. Este é um estudo interessante. No entanto, existem pontos-chave que precisam ser abordados.

1. A análise PCA está incorreta. Uma análise de PCA baseada na estatística descritiva do GRM não possui nenhuma informação. O que você precisa fazer é executar o PCA no próprio GRM.
2. A gramática inglesa e a redação científica devem definitivamente ser melhoradas. O manuscrito está cheio de erros e, infelizmente, não foi escrito com cuidado.
3. Existem frases longas no manuscrito, algumas frases não são necessárias. Seja breve e vá direto ao ponto.
4. Na seção de resultados, os autores tendem a repetir as tabelas e figuras do texto.
5. A seção de discussão parece mais um relatório de revisão da literatura do que uma seção de discussão. Parte da revisão da literatura pode ser movida para a Introdução. Por favor, discuta suas descobertas e relate as descobertas relevantes da literatura. O leitor está interessado em saber sobre suas descobertas, não lendo uma revisão extensa da literatura.

Por favor, veja abaixo para mais comentários.

Use letras maiúsculas no título (por exemplo, carne - & gt Carne)
L18: "controle" para "grupo de controle"
L20: "genótipos" em "genótipos"
Falta de Cange para chamar a taxa.
"r2" e "Ne" devem estar em itálico em todos os lugares.
"contemporâneo" para "atual" em todos os lugares
L24: "foi encontrado" para "era"
L24: "Calvana e" para "Calvana e"
L28: "através das gerações" até "através das gerações para raças locais"
L30,60: "demográfico" tem certeza que esta é a palavra certa ?!
L37: "bacia".
L39: "(Calvana, CAL Mucca Pisana, MUP e Pontremolês, PON)" para "(Calvana (CAL), Mucca Pisana (MUP) e Pontremolês (PON))"
L42: "Pontremolês enfrenta hoje em dia o" a "PON enfrenta hoje em dia um"
L43: "de apenas alguns" a "um número limitado de"
L43: "a raça" que raça?
L45: "vem" para "origina"
L51: "a região" para "esta região"
L54: “o tamanho de uma população ideal” para “o tamanho de uma população”. Não existe população ideal ou tamanho de população ideal!
L55: "muda como a população real em estudo" para "muda como uma população real"
L60: "o geral" para "geralmente"
L66: "de alelos" para "entre alelos"
L66: A frase precisa de uma referência.
L88: "analisado" para "genotipado"
L92: "Limousin" para "Limousin, cidade". Mencione a cidade onde está localizada a ANACLI.
L94: Use letras maiúsculas apenas na primeira letra. O mesmo para outras rubricas.
L99 e em outros lugares: "& lt" para "& lt" e "& gt" para "& gt"
L104: "relacionamentos" para "relacionamentos idênticos por estado"
L104: "status" qual status?
Eq1, L107, L108: negrito Z
L107: itálico "pi"
L108: "Matriz Z" para "Z"
L109: "matriz X que" para "a matriz que"
L111: "Para cada GRM" para "Para o GRM de cada raça"
L112 e em outros lugares: "fora da diagonal" para "fora da diagonal" e "diagonal" para "valores diagonais"
L112: "valores da diagonal" a "dos valores diagonais"
L123: "valores fora da diagonal" para "valores fora da diagonal"
L124: "raiz absoluta e quadrada" de quê?
L116: Por favor, consulte meu comentário anterior sobre o PCA.
L120: "melhor medida de LD porque" para "melhor medida de LD do que D ', porque"
L121: "mudar" para "mudanças"
L121: excluir "como D '"
L121: "Os valores de r2 variam" a "O r2"
L122: exclua esta linha
L123: Altere para "foi calculado como:"
Eq2: Altere freq X para freq (X) e * para x.
L125-126: Altere-os para "onde freq (A), freq (a), freq (B) e freq (b) são as frequências alélicas e freq (AB), freq (ab), freq (Ab) e freq ( aB) são as frequências dos genótipos. A extensão LD foi "
L127: "no PLINK" para "usando o PLINK"
L128: Mais descrição é necessária aqui.
L129: "Além disso, o" para "O"
L130: "Mbp: 0 - 0,25 0,25 - 0,5 0,5 - 0,75 0,75 - 1 Mbp" para "Mbp (0 - 0,25, 0,25 - 0,5 0,5 - 0,75 e 0,75 - 1 Mbp)"
L131: "foi" para "foram" e "foi" para "também foi"
L132: excluir "também"
L132 e em outros lugares "kb" a "Kbp"
L136: "tamanho efetivo da população recente" para "Ne atual". Depois de usar uma abreviatura, não use o termo completo!
L137: "relacionamento" para "relacionamentos"
L140: "4000kb" a "4000 Kbp"
L141: "50kb" a "50 Kbp"
L142: "4000 kb" a "4000 Kbp"
Eq3 e em outro lugar: "NT (t)" para "Ne (t)"
L144: "estimativa t geração atrás" para "estimada para t geração atrás". "t" deve estar em itálico.
L145: "Ct" para "ct" e "avalie t" para "avalie em t"
L147 e em outro lugar: "cNe" para "Ne0"
L148: "v. 2" para "v.2" e "definir na opção aleatória" para "definir para aleatório"
L154: "indivíduos de cada raça" para "indivíduos de cada raça"
L157-158: Mudar para "Tabela 1. Número de SNPs autossômicos e indivíduos antes (pré-) e depois (pós-) do controle de qualidade (QC) por raça."
Tabela 1: Exclua as linhas "Local" e "Comercial".
L162: "O mais baixo" para "O"
L164: "Calvana". para "CAL"
L165: "parentesco" para "média de parentesco"
l173-176: Mude para "& lt1 em todas as raças. A média dos valores diagonais foi 0,99 para CAL, MUP e LIM e 0,97 para PON. Os valores diagonais mais altos foram 3,25, 1,75, 1,54 e 1,22 para PON, MUP, CAL e LIM. Os valores mínimos da diagonal variaram de 0,67 (MUP) a,0,78 (LIM). " Acho que as frases são desnecessariamente longas.
L177: "em todas as raças" até "para todas as raças"
L178-188: Exclua essas linhas e substitua-as pelos novos resultados do PCA.
L194-195: Quando você menciona um intervalo, mencione-o de pequeno a grande e não o contrário.
L198: "a saber"?
L200: "A média mais alta" a "A média de"
L200-201: Por que

0,14? 2 ou 3 decimais.
L201: "A média" para "A média e DP de"
L202: "Tabela 2", não "Tabela 1". Os autores não escreveram o manuscrito com cuidado.
L202: "= 0,21" a "0,21"
L203: "r2 = 0,19" para "0,19" e "r2 = 0,17" para "0,17"
L202-208: Reescrever este parágrafo. Difícil de ler.
L210: Altere para "Tabela 2. A média e o desvio padrão (DP) do desequilíbrio de ligação (r2) para Bos Taurus"
Tabela 2: "CAL 1" a "CAL". Adicione os cabeçalhos "Raça 1" e "AutoSome"
L218: "valores" quais valores?
L218: "a maioria dos quais foi & lt0.2" para "dentro da raça"
L218: "Medianas" para "Medianas"
L219-223: Reescrever essas linhas. Longo e confuso. Escreva curto, claro e conciso, por favor.
L228: "comportamento de decadência" para "decadência"
L230-232: Altere para "Mbp e até 1 Mbp (Figura 4). Raças diferentes mostraram padrões diferentes de decaimento de LD".
Figura 4: "LD (r2)" para "Desequilíbrio de ligação (r2)"
L234: "Gráfico de decaimento LD" para "Desequilíbrio de ligação em diferentes distâncias do genoma"
Exclua a primeira frase nas linhas 236-237. Isso é desnecessário.
L238: "mantido" para "permanecido". Por favor, verifique o inglês completamente no manuscrito.
L238: "estava em" para "permaneceu em"
L239: "& gt0,12 Mbp" para "& gt 0,12 Mbp (Figura 4)"
L240: "era" para "é"
L241-246: Longo e difícil de ler. Por favor, reescreva.
L243: "valor superior". Você precisa mencionar qual valor. Média ou SD?
Tabela 3: "Cal 1" a "CAL". Adicione um cabeçalho "Raça 1"
L250 "1 kb" a "1 Kb"
L252: "1 Kbp" a "1kb"
L253: "mais uniforme e rápido" para "mais rápido"
L256: "raça, era" para "raça era"
L258-260: Excluir "Nenhuma das raças locais teve um Ne estimado superior a 100 na geração 13. Em geral, CAL teve um Ne ligeiramente maior ao longo das gerações, em comparação com MUP e PON. Mais precisamente," Muito prolixo e repetindo o que é mostrado na figura.
L262: "variou entre 204 e 45 (na geração mais distante e mais recente, respectivamente)." para "diminuiu de 204 para 45 (80ª para 13ª gerações atrás)"
L263-264: "com um máximo de 920 (80 gerações atrás) e um mínimo de 310 na geração 13." para "diminuindo de 920 para 310 (80ª a 13ª gerações atrás)"
Figura 5: "Tamanho efetivo da população" para "Tamanho efetivo da população"
L268-270: Altere para "Em relação ao Ne atual (Ne0), CAL, MUP, PON e LIM mostraram 41,7, 18,7, 17,0 e 327,9, respectivamente."
L272: "parâmetros de tamanho efetivo da população" para "Ne"
L274: "uma raça bovina" para "uma raça bovina comercial"
L279: exclua "mais precisamente",
L280-286: Atualize essas linhas com os novos resultados do PCA.
L292: Mudança para "LD médio era diferente entre as raças locais e LIM. LIM é um"
L299: "em equilíbrio" para "em equilíbrio"
L299: "observado em PON, mas também nas outras duas raças locais" para "observado nas raças locais"
L301: "pertencente a" a "de"
L302: “tinha a curva característica das populações”.
L304: "confirmou a queda mais lenta do LD encontrada neste estudo" Não está claro o que você quer dizer. Mais lento do que o quê? Reescreva.
L304: "Os autores analisaram duas raças locais" para "Mastrangelo et al. [44] analisaram duas raças locais Cinisara e Modicana"
L305: "uma ilha da Itália, e para essas raças o" para "uma ilha na Itália. O"
L23306: "Modicana, semelhante a PON (0,17), mas superior a CAL e MUP (0,14)." para "Modicana". Excluí o resto, porque os valores não são semelhantes.
Por causa da grande quantidade de edições, paro de digitar aqui. Por favor, revise o manuscrito completamente.
Também existem erros nas referências. Veja L455 e L460 por exemplo.

Por favor, verifique o anexo

Estimativa de LD e tamanho efetivo da população em três raças de corte autóctones italianas

Muitas raças de corte locais estão ameaçadas de extinção, pois pesquisas sobre elas são louváveis ​​e merecem apoio.

Os autores estavam investigando a arquitetura genômica de três raças italianas locais e estavam especialmente interessados ​​nos tamanhos efetivos da população e como eles mudam com o tempo.

A análise parece relativamente sólida, mas a apresentação dos resultados não é muito atraente.

Como exatamente os valores de r ao quadrado foram ajustados (fórmula 3)? Qual valor foi escolhido para alfa? E porque? Alpha é mais um parâmetro do que uma constante e deve ser explicado brevemente.

Figura 1: as cores são difíceis de comparar, pois as escalas são diferentes (valores máximos de

1,6 (A). Deve ser consistente.

Tabela 2: isso é cansativo, deve ser omitido ou ir para o Material Complementar

Figura 2: um gráfico de ordenação (por exemplo, MDS) mostrando cada animal, com cores de acordo com a raça, seria mais conclusivo.

Tabela 3: dado que as mudanças de r ao quadrado acontecem quase exclusivamente no primeiro intervalo, esta tabela e a análise correspondente não fazem sentido para mim.

Figura 3: novamente, isso não tem sentido. Não vejo razão para mostrar a cada cromossomo quando eles são mais ou menos iguais dentro de cada raça. Pense em uma apresentação diferente.

Tabelas suplementares: qual é o interesse de S1? Por que o comprimento do cromossomo difere entre as raças em S2? S3 precisa de uma legenda. S2 precisa de uma legenda com mais detalhes explicando as variáveis.

Discussão: Linha 280: & bdquoA PCA & hellip não apenas diferenciou as raças locais das comerciais. & ldquo Isso não se justifica de forma alguma. Você poderia afirmar isso se descobrisse que as três raças locais formam um grupo com LIM separado. Este não é obviamente o caso.

Não faz sentido explicar as diferenças e semelhanças de curvas efetivas de população com parentesco entre as populações. Você poderia ter duas curvas idênticas de duas espécies que são completamente distintas e vice-versa.

O texto é cheio de descuidos e imprecisões.

Linha 28: & bdquosample size & ldquo em vez do tamanho efetivo da população

Linha 145: C maiúsculo em vez de c minúsculo

Linha 236/7: & bdquoFigura 3 & ldquo em vez da Figura 4

Tabela 3: linha horizontal abaixo dos cabeçalhos das colunas muito curta

Linha 454/5: o diário é denominado & bdquoJ Anim Breed Genet. & Ldquo

Por favor, verifique o anexo

O manuscrito de Fabbri e colegas relatou um estudo sobre o desequilíbrio de ligação (LD) entre três raças de gado locais italianas (Calvana, Mucca Pisana, Pontremolese) usando a raça Limousin como controle. Os resultados mostraram que as raças Calvana e Mucca Pisana apresentaram nível moderado de LD (

0,14) e Pontremolese apresentou o maior nível de DL (0,17), enquanto Limousin apresentou o menor nível de DL (0,07). Os resultados obtidos forneceriam evidências científicas para a conservação de três raças locais de gado com tamanhos populacionais efetivos muito baixos (Ne). Em geral, o manuscrito é bem organizado e bem escrito. Pequenas mudanças precisam ser feitas antes da aceitação final.


Introdução

Tilápia do Nilo (Oreochromis niloticus) é uma das espécies de peixes cultivadas mais importantes em todo o mundo (FAO, 2018). Os programas de reprodução estabelecidos desde a década de 1990 têm desempenhado um papel fundamental no aprimoramento de características comercialmente importantes e na expansão da criação de tilápias do Nilo. A Tilápia Agrícola Geneticamente Melhorada (GIFT) é a cepa de criação de tilápia mais difundida (Lim e Webster, 2006), que foi introduzida em vários países da Ásia, África e América Latina (Gupta e Acosta, 2004). A base genética do GIFT foi estabelecida a partir de oito populações africanas e asiáticas e, após seis gerações de seleção, os ganhos genéticos variaram de 10 a 15% por geração para características relacionadas ao crescimento (Eknath et al., 1993), fornecendo evidências de que a reprodução usando informações de fenótipo e pedigree pode alcançar ganhos genéticos altos e constantes (Gjedrem e Rye, 2018).

O recente desenvolvimento de painéis SNP densos para tilápia do Nilo (Joshi et al., 2018 Y & # xe1 & # xf1ez et al., 2019) proporcionará novas oportunidades para descobrir a base genética de características comerciais importantes, especialmente aquelas que são difíceis ou caras para medir em candidatos selecionados. Como foi demonstrado para diferentes características em espécies de salmonídeos, espera-se que a incorporação de avaliações genômicas em programas de melhoramento aumente a precisão dos valores de cruzamento, em comparação com métodos baseados em pedigree (Tsai et al., 2016 Bangera et al., 2017 Correa et al., 2017 Sae-Lim et al., 2017 Yoshida et al., 2017 Barria et al., 2018b Vallejo et al., 2018 Yoshida et al., 2019a).

Os estudos genômicos exploram o desequilíbrio de ligação (LD) entre os SNPs e o locus de característica quantitativa (QTL) ou mutação causal. Assim, conhecer a extensão e o declínio do LD dentro de uma população é importante para determinar o número de marcadores necessários para o mapeamento de associação e predição genômica bem-sucedidos (de Roos et al., 2008 Khatkar et al., 2008 Porto-Neto et al. , 2014, Brito et al., 2015). Portanto, quando baixos níveis de LD estão presentes em uma população, uma densidade de marcador mais alta é necessária para capturar a variação genética em todo o genoma (Khatkar et al., 2008). Além disso, os padrões de LD fornecem informações relevantes sobre eventos demográficos anteriores, incluindo resposta à seleção natural e artificial (Slatkin, 2008). Portanto, as estimativas de LD ao longo do genoma refletem a história da população e fornecem informações sobre o sistema de reprodução e os padrões de subdivisão geográfica, que podem ser explorados para estudar o grau de diversidade em diferentes populações.

Até o momento, as medidas mais amplamente utilizadas de LD entre dois loci são Pearson & # x2019s coeficiente de correlação quadrado (r 2) e Lewontin & # x2019s D & # x2019 (comumente denominado D & # x2019). Valores inferiores a 1 para D & # x2019 indicam separação de loci devido à recombinação, enquanto D & # x2019 = 1 indica LD completo entre loci, ou seja, nenhuma recombinação. No entanto, este parâmetro é altamente influenciado pela frequência do alelo e tamanho da amostra. Assim, altas estimativas D & # x2019 são possíveis mesmo quando os loci estão em equilíbrio de ligação (Ardlie et al., 2002). Portanto, LD medido como r 2 entre dois loci é sugerido como a medição mais adequada para dados SNP (Pritchard e Przeworski, 2001).

Os padrões de LD foram amplamente estudados em diferentes espécies de gado, como ovelhas (Prieur et al., 2017), cabras (Mdladla et al., 2016), porcos (Ai et al., 2013), carne bovina (Espigolan et al., 2013 Porto-Neto et al., 2014) e gado leiteiro (Bohmanova et al., 2010). Na aquicultura, estudos recentes objetivaram caracterizar a extensão e decadência de LD em espécies cultivadas, como camarão branco do Pacífico (Jones et al., 2017), ostra do Pacífico (Zhong et al., 2017), truta arco-íris (Rexroad e Vallejo , 2009 Vallejo et al., 2018), salmão prateado (Barria et al., 2018a) e salmão do Atlântico (Hayes et al., 2006 Gutierrez et al., 2015 Kijas et al., 2016 Barria et al., 2018c). No entanto, até o momento, há informações escassas sobre a estrutura genômica da população e LD em criação de tilápia do Nilo avaliada pelo uso de painéis SNP densos. A avaliação dos padrões de LD na tilápia do Nilo ainda é limitada a alguns estudos nos quais um pequeno número de marcadores (14 microssatélites) (Sukmanomon et al., 2012) e indivíduos (4 a 23 amostras) (Hong Xia et al., 2015) foram usados. Recentemente, a construção de um mapa de ligação densa para tilápia do Nilo sugeriu um perfil de recombinação sigmóide na maioria dos grupos de ligação (LG), mostrando maiores taxas de recombinação no meio e menor recombinação no final das LGs (Joshi et al., 2018). Esses padrões são consistentes com os altos níveis de LD encontrados no final de quase todos os cromossomos em uma população híbrida de tilápia do Nilo (Conte et al., 2019). Os objetivos do presente estudo foram i) estimar a estrutura populacional e a diferenciação genética ii) avaliar os níveis de LD em todo o genoma e iii) determinar o tamanho efetivo da população entre três populações reprodutoras de tilápia do Nilo estabelecidas na América Latina.


Resultados

Esquema de coleta de dados

A fim de pesquisar a variação de sequência e LD de forma mais eficiente, nós ressequenciamos um segmento de & # x0223c1 kb em cada extremidade de um segmento de & # x0223c10-kb em todos os indivíduos de três amostras da população. Cada uma dessas unidades de dois segmentos será referida como um & # x0201 par de clocos. & # X0201d Dez desses pares de locus, selecionados de cromossomos diferentes ou braços diferentes do mesmo cromossomo, foram pesquisados ​​(tabela 1). Em uma tentativa de caracterizar os níveis de LD & # x0201ctypical & # x0201d no genoma humano, as regiões genômicas foram escolhidas de acordo com um conjunto fixo de critérios. O primeiro foi que as taxas de crossing-over estavam próximas da média do genoma, conforme determinado pela comparação dos mapas físicos e genéticos. A taxa média de cruzamento para as regiões selecionadas foi de 1,29 cM / Mb (tabela 1). Como o conteúdo percentual de G + C está relacionado à divergência de sequência e taxa de mutação (Wolfe et al. 1989), bem como a taxa de cruzamento (Fullerton et al. 2001), o segundo critério era que o conteúdo de G + C era de 35% & # x0201345%. Além disso, na tentativa de reduzir a probabilidade de que os padrões observados de LD fossem afetados pela seleção natural, escolhemos regiões que não contêm ou flanqueiam regiões codificantes conhecidas. Os dez pares de locus foram sequenciados em todos os indivíduos de amostras retiradas de três grandes populações dos principais grupos étnicos: Hausa dos Camarões (África Subsaariana), italianos (Europa) e chineses Han (Ásia). Ao contrário de muitos outros estudos sobre DL, o presente estudo baseia-se no ressequenciamento de cada indivíduo em cada amostra. Assim, LD e níveis de polimorfismo podem ser avaliados e contrastados para as mesmas regiões genômicas e amostras populacionais, permitindo inferências mais precisas sobre a população e os fatores genéticos que afetam a decadência de LD.

Resumo descritivo da variação de sequência e LD

A divergência média entre as sequências de humanos e chimpanzés nos 10 pares de locus é de 1,19%. Testamos a heterogeneidade de divergência de sequência entre as regiões genômicas pesquisadas usando o número médio de diferenças de sequência entre todas as sequências humanas e de chimpanzé e calculando a média disso em todas as regiões. Os números esperados foram então calculados para cada região, levando-se em consideração sua extensão. A diferença entre os números observados e esperados foi avaliada por um teste global & # x003c7 2 que rejeitou a hipótese de taxas de divergência homogêneas. A região 3 deu a maior contribuição para o & # x003c7 2 global, mostrando divergência interespécies significativamente maior do que as outras regiões. Depois que a região 3 foi removida, as nove regiões restantes não mostraram nenhum & # x003c7 2 global significativo. Isso sugere que a taxa de mutação é mais alta na região 3, embora seu conteúdo percentual de G + C e CpG não sejam correspondentemente mais altos. A heterogeneidade dos níveis de polimorfismo foi avaliada da mesma forma. Nenhuma heterogeneidade significativa no nível de polimorfismo entre as regiões foi encontrada. (Este teste de heterogeneidade dos níveis de polimorfismo não assume nenhuma ligação entre os locais. No entanto, como a ligação entre os locais aumenta a variância do número de locais polimórficos, nossa conclusão de nenhuma heterogeneidade seria a mesma se a ligação fosse levada em consideração.)

Conforme mostrado na tabela 2, a diversidade de nucleotídeos em todos os loci é de 0,11% na amostra Hausa. Isso é & # x0223c10% e 50% maior do que nas amostras italiana e chinesa, respectivamente. O número de locais de segregação na amostra africana é & # x0223c50% maior do que na amostra italiana ou chinesa. Dadas essas diferenças entre as populações, é importante interpretar a análise de amostras agrupadas com cautela.

Mesa 2

Estatísticas Resumidas de Variação de Sequência

Hausa Italianos chinês
Região eu uma S b & # x003c0 c (%)TD d D e (%)S b & # x003c0 c (%)TD d D e (%)S b & # x003c0 c (%)TD d D e (%)
12,423 (2,049)12.08& # x022121.271.056.08& # x02212.161.083.03& # x02212.371.04
22,55215.18.731.2911.06& # x022121.471.249.04& # x022121.691.23
32,79217.15& # x02212.031.9713.161.311.959.111.001.97
42,560 (2,431)10.12.741.417.111.721.448.08.031.45
53,0509.08.291.1010.11.881.079.05& # x02212.991.11
62,920 (2,902)16.10& # x02212.931.238.06& # x02212.531.219.04& # x022121.451.20
72,81111.07& # x02212.96.947.122.70.9410.10.37.96
82,0349.09& # x02212.69.965.07.46.948.09& # x02212.27.93
91,7916.08& # x02212.221.164.081.101.173.092.431.17
102,11015.15& # x02212.52.759.13.63.808.141.53.79
& # x02003Geral25,043120.11& # x02212.331.1980.10.741.1876.07& # x02212.121.19
& # x02003Ne 11,555 10,504 7,353

Usando os dados de sequência de fase desconhecida diplóide, calculamos a estimativa de probabilidade máxima das estatísticas de resumo de LD r 2 e |D & # x02032| para todos os pares de sítios polimórficos nos 10 pares de locus, isso foi feito para cada amostra da população separadamente e para a amostra combinada (Hill, 1974). (Este procedimento de estimativa se baseia na suposição do equilíbrio de Hardy-Weinberg. Os testes de equilíbrio de Hardy-Weinberg não mostraram desvios significativos após a correção de Bonferroni.) Como as estimativas de LD para alelos de baixa frequência em pequenas amostras não são muito informativas, apenas alelos com frequências na faixa de 0,1 & # x020130,9 foram incluídas nesta análise. Conforme mostrado na figura 1, nos italianos, significa r 2 para sites separados por & # x0003c1 kb é 0,53, enquanto para sites separados por 8 & # x0201310 kb, a média é 0,23. O resultado chinês é semelhante, com média r 2 valor de 0,38 para sites separados por & # x0003c1 kb e uma média r 2 de 0,28 para sites separados por 8 & # x0201310 kb. No Hausa, os sites separados por & # x0003c1 kb têm uma média r 2 de 0,21, consideravelmente menos do que em italianos e chineses, e para sites separados por 8 & # x0201310 kb, r 2 caiu para uma média de 0,11. Da mesma forma, |D & # x02032| diminui com a distância mais rapidamente no Hausa do que nas outras duas amostras populacionais. Os valores de |D & # x02032| e r 2 são sensíveis às frequências alélicas e ao tamanho das amostras, e a comparação dos resultados entre os estudos deve levar isso em consideração. Este problema é considerado mais detalhadamente na seção Discussão.

Testando o modelo de equilíbrio

Na próxima seção, os parâmetros do modelo de equilíbrio serão estimados. Antes de prosseguir com a estimativa, testamos os dados para verificar a compatibilidade com este modelo. Como o ensaio de polimorfismo é baseado em uma amostra aleatória na qual todos os indivíduos são totalmente sequenciados e porque a sequência de um grupo externo de chimpanzé foi obtida, uma variedade de testes do modelo de equilíbrio estão disponíveis.

O teste HKA é usado para determinar se os níveis de polimorfismo intraespecífico e divergência interespecífica em um conjunto de loci são consistentes com o modelo de equilíbrio (Hudson et al. 1987). Uma versão multilocus do teste HKA original foi aplicada a todas as 10 regiões em cada amostra da população. Não foram detectados desvios significativos do modelo de equilíbrio (tabela 3).

Tabela 3

Resultados de Multilocus HKA e Tajima & # x02019s D Testes

PopulaçãoP uma Quer dizer D% Maior b Variância D% Maior b
Hausa.71& # x02212.28576.6.50484.9
Italianos.94.663.901.39911.4
chinês.75.05733.91.7203.0

Tajima & # x02019s D a estatística, que resume as informações sobre o espectro da frequência do alelo, foi calculada para cada região em cada amostra populacional (Tajima 1989). Esses valores, bem como suas médias e variações, são mostrados nas tabelas & # x200B tabelas2 2 e & # x200B e3. 3 Testamos se a média observada e a variância de Tajima & # x02019s D entre loci foi consistente com o modelo de equilíbrio, estimando os valores críticos dessas distribuições de simulações de Monte Carlo (software gentilmente fornecido por J. Hey). (Os parâmetros de mutação usados ​​nas simulações foram estimados no teste HKA, usando os dados de polimorfismo e divergência.) Nessas simulações, as regiões foram assumidas como desvinculadas e sem recombinação ocorrendo dentro delas. Conforme mostrado na tabela 3, a amostra italiana tem uma média positiva de Tajima & # x02019s D isso é significativamente diferente das expectativas de equilíbrio. Menos de 1% das amostras simuladas tiveram um valor médio de Tajima & # x02019s D que era tão grande ou maior do que o valor médio observado. A amostra chinesa mostra uma variação marginalmente significativa de Tajima & # x02019s D. Se níveis realistas de recombinação foram incorporados nas simulações, o P valor para esta variação observada seria menor (como seria o P valor da média observada de Tajima & # x02019s D em italianos.) Embora a amostra africana mostre um Tajima geral negativo & # x02019s D, a observação está longe de ser estatisticamente significativa. Os afastamentos das amostras italiana e chinesa do modelo de equilíbrio sugerem que as estimativas de parâmetros baseadas neste modelo devem ser interpretadas com cautela.

Estimando a taxa de mutação neutra e o tamanho efetivo da população

Com base na divergência observada (D) entre sequências de humanos e chimpanzés & # x02014 e assumindo um tempo de divergência (t) de 5 milhões de anos & # x02014; podemos estimar a taxa de substituição para essas regiões como & # x003bcy=D& # x0002f2t= 0.0119 & # x0002f & # x0005b2 & # x000d7 & # x000285 & # x000d710 6 & # x00029 & # x0005d = 1.19 & # x000d710 -9 & # x0002fano. Sob o modelo de equilíbrio, essa taxa de substituição é uma estimativa da taxa média de mutação neutra por local nesses loci. Observe que nenhuma correção para vários acertos foi aplicada.

Sob o modelo de equilíbrio, a diversidade de nucleotídeos esperada (& # x003c0) é 4Ne& # x003bc, onde & # x003bc aqui está a taxa de mutação neutra por geração. Isso sugere estimar o tamanho efetivo da população (Ne) por & # x003c0 / 4 & # x003bc. As estimativas de Ne mostrados na tabela 2 foram obtidos desta forma, usando a diversidade geral de nucleotídeos para cada amostra da população e & # x003bc = 20 & # x003bcy= 2,38 & # x000d710 -8, onde assumimos um tempo de geração de 20 anos. Da mesma forma, as estimativas do tamanho efetivo da população podem ser obtidas usando o número de sítios polimórficos. Por causa dos desvios observados das expectativas do modelo de equilíbrio, diferentes estimativas seriam obtidas para algumas amostras usando diversidade de nucleotídeos e número de sítios polimórficos. Conforme mostrado na tabela 2, a estimativa do tamanho efetivo da população para a amostra africana é maior do que para a não africana, em linha com estudos anteriores (Przeworski et al. 2000). Ressaltamos, no entanto, que os dados mostram desvios significativos do modelo de equilíbrio simples nas populações não africanas, portanto, o significado desses valores estimados não é claro.

Estimando o parâmetro de cruzamento da população

Sob um modelo de equilíbrio de Wright-Fisher de dois locus simples, o nível de LD depende do parâmetro composto, & # x003c1 = 4Nerbp, Onde Ne é o tamanho efetivo da população e rbp é a taxa de cruzamento por geração entre as posições de nucleotídeos adjacentes e a taxa e o comprimento do trato de conversão gênica. A proporção da conversão do gene para a taxa de cruzamento é denotada por f (consulte a seção Materiais e Métodos). Usamos um método de probabilidade composta de pares para estimar & # x003c1 e f para valores fixos de comprimento médio do trato de conversão (eu) Por este método, os ICs para estimativas de & # x003c1 e f com base em um único par de locus são muito grandes e tornam a interpretação de estimativas individuais difícil (resultados de simulação não mostrados). No entanto, quando os dados de todos os 10 pares de locus são combinados, boas estimativas podem ser obtidas.

Embora se saiba relativamente pouco sobre a conversão gênica em mamíferos, estudos em leveduras e moscas-das-frutas sugerem que o comprimento do trato de conversão é de 300 & # x020132.000 bp (Hilliker et al. 1994 Paques e Haber 1999) e que f é & # x0223c2 & # x020134 (Fogel et al. 1983 Foss et al. 1993 Hilliker et al. 1991). Restringimos nossa atenção aos modelos com eu= 500 bp ou 1.000 bp. Focamos inicialmente na amostra africana, pois ela não apresentou desvios do modelo de equilíbrio assumido no procedimento de estimação. Para eu= 500 bp, a estimativa de probabilidade composta máxima de & # x003c1 e f na amostra africana são 0,00089 e 7,3, respectivamente. Assumindo que a taxa de cruzamento por geração é 1,29 cM / Mb, a estimativa do tamanho efetivo da população para a amostra africana é & # x0223c17.000, ou seja, 0,00089 & # x0002f & # x000284 * 1,29 * 10 -8 & # x00029. Isso é mais ou menos consistente com, mas um pouco maior do que, as estimativas do tamanho efetivo da população com base nos níveis de polimorfismo descritos acima.

A Figura 2 mostra uma região de confiança de 95% para & # x003c1 e f com base nos dados africanos. Pela figura, fica claro que pequenos valores de f implica grandes valores de & # x003c1. Também, f& # x0003c0.8 é incompatível com os dados. Além disso, para f& # x0003c1, o gráfico na figura 2 sugere que & # x003c1 provavelmente é & # x0003e0.002, o que por sua vez implica em um tamanho de população efetivo implausivelmente grande.

Superfície de probabilidade composta de pares para a amostra africana. A linha de contorno grossa indica uma região de confiança de aproximadamente 95% com base em simulações (consulte a seção Materiais e Métodos). As outras linhas de contorno estão em intervalos arbitrários para representar a forma da superfície. O ponto indica o máximo em f= 7,3 e r=.00089.

Se assumirmos que Ne= 12.000, conforme estimado a partir dos níveis de polimorfismo na amostra africana, e que rbp= 1,29 cM / Mb, conforme as estimativas diretas das taxas de cruzamento sugerem, então & # x003c1 = 6,2 & # x000d710 -4. Corrigindo este valor de & # x003c1 e assumindo eu= 500 bp, a estimativa de probabilidade composta máxima de f é 11 (aproximadamente 95% região de confiança= 4.5 & # x0201325). Para valores menores de eu, valores ainda maiores de f são estimados. O ponto, f= 11, & # x003c1 = 6.2 & # x000d710 -4 está dentro do intervalo de contorno mais alto mostrado na figura 2, portanto, está bem dentro da região de confiança de 95% para f e & # x003c1.

É bem conhecido que a mistura pode aumentar os níveis de LD, mesmo em locais não ligados. Isso levanta a possibilidade de que a mistura não reconhecida possa afetar as estimativas do cruzamento da população e dos parâmetros de conversão gênica. Para investigar esse problema, estimamos |D & # x02032| e r 2 para pares de sites não vinculados para o Hausa e as amostras agrupadas. A amostra Hausa foi escolhida porque é usada para estimar os parâmetros de conversão de genes, e a amostra combinada foi examinada porque é misturada artificialmente. A significância da média observada |D & # x02032| e r 2 valores foram avaliados por um teste no qual genótipos diplóides para cada par de locus inteiro foram permutados aleatoriamente entre os indivíduos. Na amostra Hausa, a média observada |D & # x02032| e r 2 não foram significativamente diferentes das expectativas aleatórias: a média observada & # x0007cD & # x02032 & # x0007c = 0,52 e r 2 = 0,064, e a média das quantidades correspondentes de permutações são 0,55 e 0,071 (percentis 2,5 superior e inferior: 0,51 & # x020130,60 e 0,060 & # x020130,085, respectivamente). Por outro lado, os resultados para a amostra combinada são consistentes com algum nível de mistura: a média observada de & # x0007cD & # x02032 & # x0007c = 0,37 e r 2 = 0,032, e a média das quantidades correspondentes de permutações são 0,30 e 0,022 (percentis 2,5 superior e inferior: 0,27 & # x020130,34 e 0,018 & # x020130,026, respectivamente). Assim, as estimativas dos parâmetros de conversão gênica que obtemos da amostra Hausa são improváveis ​​de serem infladas como resultado de uma mistura não reconhecida.

As estimativas de & # x003c1 para as amostras italiana e chinesa são mostradas na tabela 4. Como o modelo de equilíbrio não é compatível com os dados dessas populações, as estimativas de & # x003c1 podem não estimar com precisão 4Nerbp, mas eles podem fornecer índices úteis da taxa de decaimento de LD com a distância. A partir dessas estimativas, parece que o LD decai a uma taxa cerca de quatro vezes mais lenta nas duas populações não africanas do que na população africana. De acordo com os resultados acima, indicando um desvio do modelo de equilíbrio, os tamanhos populacionais efetivos que essas taxas de decaimento implicam não são compatíveis com aqueles estimados com base nos níveis de polimorfismo nessas populações (ver tabelas & # x200B tabelas2 2 e & # x200B e 4 4).

Tabela 4

Estimativas da taxa de cruzamento da população e ICs de 95% (& # x000d7 10 & # x022124)

Hausa Italianos chinês
eu(bp)f Ne uma Ne uma Ne uma
& # x0202604587,2095.610,8536.011,628
500413 (7,1 e # x0201323)25,1942,9 (1,2 e # x020135,7)5,6203,4 (1,5 e # x020136,8)6,589
1,000411 (5,7 e # x0201319)21,3182.2 (1.0 e # x020134.4)4,2642.6 (1.0 e # x020136.0)5,039
50088,4 (4,7 e # x0201314)16,2791,9 (.9 e # x020133.7)3,6822,3 (0,9 e # x020134,9)4,457
1,00086.0 (3.4 e # x0201311)11,6281,4 (.6 e # x020132.8)2,7131,6 (0,7 e # x020133,5)3,101

As taxas estimadas de cruzamento de população e conversão gênica podem ser usadas para calcular os valores esperados das estatísticas descritivas de LD, r 2 e |D & # x02032| A Figura 1 mostra o declínio observado de LD com a distância e o declínio esperado com base em um modelo de crossing-over com e sem conversão gênica para nossos dados. De acordo com a expectativa de que a conversão gênica afeta principalmente a decadência de LD em distâncias curtas, o modelo de crossing-over / conversão gênica mostra um declínio acentuado dentro de 1 kb. Conforme mostrado na tabela 4, quando a conversão gênica é incluída no modelo, a estimativa do parâmetro de cruzamento da população para qualquer amostra diminui. Como consequência, em distâncias mais longas, o LD esperado é maior se a conversão do gene for levada em consideração do que em um modelo incluindo apenas o efeito de crossing-over (como pode ser visto comparando as linhas tracejadas e sólidas na fig. 1). Porque |D & # x02032| é sensível tanto às frequências alélicas quanto ao tamanho da amostra, os resultados da figura 1 não podem ser facilmente comparados aos obtidos em outros estudos. Para facilitar as comparações, calculamos a distância em que o |D & # x02032| atinge metade do seu valor máximo com base nas nossas estimativas do parâmetro de cruzamento da população e para diferentes tamanhos de amostra e intervalos de frequências de alelos (tabela 5). Para qualquer conjunto de parâmetros populacionais, a distância em que & # x0007cD & # x02032 & # x0007c = 0,5 difere tanto quanto quatro vezes para os tamanhos de amostra considerados na tabela 5 e ainda mais para as frequências de alelo de 0,1 & # x020130,9 versus 0,3 & # x020130,7. Esses resultados ressaltam a dificuldade de comparar os níveis de LD entre os estudos. Com base nas estimativas do parâmetro de cruzamento da população e da taxa de conversão genética para as amostras não africanas, o |D & # x02032| para frequências de alelos 0,1 & # x020130,9 é igual a metade do |D & # x02032| a 55 & # x02013103 kb em amostras de 90 cromossomos. Com base nas estimativas correspondentes para a amostra africana, o |D & # x02032| para frequências de alelos 0,1 & # x020130,9 metades em 11 & # x0201316 kb em amostras de 90 cromossomos.

Tabela 5

Distância (em quilobases) a que se espera |D & # x02032| = 0,5 [Nota]

Hausa Italianos chinês
SampleSize a AlleleFrequency f = 4f = 8f = 4f = 8f = 4f = 8
30.1 e # x02013.94263210325172265
60.1 e # x02013.91420791176598
90.1 e # x02013.91116671035583
90.3 e # x02013.71.91.423341826

Nota. & # X02014 A distância foi calculada usando os 4 específicos da populaçãoNerbp estimativas na tabela 2 com base em eu = 500 bp.


3. RESULTADOS

Descobrimos que várias formas de tamanho efetivo local e global exibem comportamentos bastante divergentes em populações em migração, e a relação geral entre as diferentes formas de N e é semelhante sob a ilha e os modelos de migração linear stepping stone.

3.1. Modelo de ilha

A mudança dos tamanhos efetivos locais e globais durante a abordagem da migração & # x02010 equilíbrio de deriva para o modelo de ilha com uma taxa de migração de um indivíduo por geração é mostrada na Figura & # x200B Figura1. 1 O tamanho idêntico das populações locais e o esquema de migração simétrica implicam que todos os locais realizados N e são idênticos para cada tipo particular de tamanho efetivo, e que alguns tipos de N e se comportar de maneira semelhante. Todos os 10 N eIRx são iguais, por exemplo, e coincidem com N eIMeta que representa uma média harmônica ponderada do local N eIRx. No equilíbrio, todos convergem para o tamanho efetivo do autovalor, N eE & # x000a0 = & # x000a0605, e eles estão muito próximos desse valor após cerca de t & # x000a0 = & # x000a0150 gerações. O tamanho efetivo da variância genética aditiva realizada de uma população local (N eAVRx) também é muito semelhante, mas não idêntico, ao N eIRx.

Global (Meta) e realizado localmente (Rx) tamanhos populacionais efetivos ao longo de 500 gerações em uma metapopulação seguindo um padrão de migração de modelo de ilha. Existem dez (10) subpopulações ideais de tamanho efetivo constante N ex & # x000a0= & # x000a0N cx& # x000a0 = & # x000a050, e em cada geração cada subpopulação recebe em média um (1) imigrante sorteado aleatoriamente de um grupo infinitamente grande de migrantes para o qual as outras subpopulações contribuíram igualmente (m '& # x000a0 = & # x000a00.02 m& # x000a0 = & # x000a00.022). N eI relaciona-se com a taxa de endogamia, N eAV à taxa em que a variação genética aditiva é perdida, N eV a da quantidade de mudança de frequência do alelo, e N eLD reflete o grau de desequilíbrio de ligação resultante de um equilíbrio entre deriva genética e recombinação. O tamanho efetivo do autovalor é N eE& # x000a0 = & # x000a0605, refletindo o estado de equilíbrio quando a endogamia aumenta à mesma taxa constante globalmente, bem como localmente, resultando em N eE& # x000a0 = & # x000a0N eIMeta& # x000a0 = & # x000a0N eIRx. Endogamia e parentesco iniciais são zero (0) dentro e entre todas as subpopulações. Observe que a mudança genética esperada é a mesma para todas as subpopulações em um modelo de ilha

A observação mais importante refere-se aos diferentes comportamentos dos tamanhos efetivos locais realizados N eIRx e N eAVRx por um lado, ou seja, aqueles relacionados com a regra 50/500 na conservação, e aqueles de N eVRx e N eLDRx por outro lado, ou seja, aqueles que são tipicamente direcionados ao estimar o tamanho eficaz a partir de dados de marcadores genéticos (Figura & # x200B (Figura 1). 1). Claramente, aplicando qualquer um dos métodos temporais ou LD, que estimam N eVRx e N eLDRx, respectivamente, vai nos dizer muito pouco sobre as taxas de endogamia (N eIRx) ou potenciais para manter a variação genética (N eAVRx) em populações locais que fazem parte de um sistema metapopulacional. As trajetórias de N eVRx e N eLDRx mudar apenas marginalmente durante as primeiras gerações, de modo que N eVRx diminui ligeiramente e N eLDRx aumenta. Em seguida, eles alcançam o equilíbrio e permanecem indefinidamente apenas abaixo / acima de seus valores originais de N ex& # x000a0 = & # x000a050 ou seja, em t & # x000a0 = & # x000a0500 nós temos N eVRx& # x000a0 = & # x000a049.0 e N eLDRx& # x000a0 = & # x000a051.9.

Com relação à população global, a dinâmica dos tamanhos efetivos de variância e variância genética aditiva (N eVMeta e N eAVMeta) são muito semelhantes, mas não idênticos. Ambos começam em N e & # x000a0 = & # x000a0500 (a soma do local N ex) e convergem, a taxas ligeiramente diferentes, em N eE & # x000a0 = & # x000a0605. Antes que o equilíbrio tenha sido alcançado N eAVMeta é um indicador pobre da taxa de decadência da variação genética aditiva nas populações locais, que é quantificada por N eAVRx.

Aumento da migração para dez indivíduos por geração (m & # x000a0 = & # x000a00.22 m '& # x000a0= & # x000a00.20) revela um padrão que é qualitativamente muito semelhante ao de m & # x000a0 = & # x000a00,022 (Figura & # x200B (Figura 2 2 vs. Figura & # x200B Figura 1). 1). A principal diferença é que a maior taxa de migração resulta em uma abordagem mais rápida para o equilíbrio (observe os diferentes x& # x02010 escalas do eixo da Figura & # x200B Figura 2 2 vs. Figura & # x200B Figura 1). 1). Além disso, as trajetórias para N eVRx e N eLDRx nivelar em valores que estão mais distantes do ponto de partida (N ex& # x000a0 = & # x000a050) do que na taxa de migração mais baixa. N eVRx& # x000a0 = & # x000a044.5 na geração t & # x000a0 = & # x000a050 (em comparação com N eVRx& # x000a0 = & # x000a049.0 na Figura & # x200B Figura 1). 1). Para N eLDRx, o valor de equilíbrio local esperado aumentou de N eLDRx& # x000a0 = & # x000a051.9 (em m & # x000a0 = & # x000a00,022 Figura & # x200B Figura 1) 1) para N eLDRx& # x000a0 = & # x000a077.2 (em m & # x000a0 = & # x000a00,22 Figura & # x200B Figura 2). 2). Em contraste com as simulações com m & # x000a0 = & # x000a00,022 (Figura & # x200B (Figura 1), 1), valores simulados com m & # x000a0 = & # x000a00,22 é um pouco alto, no intervalo 81 & # x0201387, em vez de próximo ao valor esperado de 77,2 (Apêndice S1 de Informações de Apoio). Em geral, no entanto, persiste a falta de acoplamento entre as quantidades relacionadas à regra 50/500, de um lado, e aquelas estimadas na maioria dos estudos empíricos, do outro.

Como na Figura & # x200B Figura 1 1, exceto que a taxa de imigração é de dez (10) indivíduos por geração (m '& # x000a0 = & # x000a00.20 m& # x000a0 = & # x000a00.22) e o processo só é seguido ao longo de 50 gerações. O tamanho efetivo do autovalor é N eE& # x000a0 = & # x000a0510

3.2. Condições de equilíbrio do modelo de ilha

Figura & # x200B A Figura 3 3 representa os valores de equilíbrio em diferentes taxas de migração (m) para as formas locais de N eIRx, N eVRx, e N eLDRx em uma metapopulação modelo de ilha com a mesma demografia básica de antes, (s & # x000a0 = & # x000a010, N ex& # x000a0 = & # x000a0N cx& # x000a0 = & # x000a050). Assim, comparando as curvas na Figura & # x200B Figura 3 3 com aquelas na Figura & # x200B Figura 2, 2, por exemplo, os valores de equilíbrio para m & # x000a0 = & # x000a00,22 são N eIRx& # x000a0 = & # x000a0510, N eVRx& # x000a0 = & # x000a044.5, e N eLDRx& # x000a0 = & # x000a077.2. Quando m é pequeno, digamos, m & # x000a0 & # x0003c & # x000a00,10, os valores de equilíbrio local esperados de N eVR e N eLDR estão perto daqueles isolados quando todos N e são os mesmos (N ex& # x000a0 = & # x000a050). Um estimador imparcial segmentação N eVRx ou N eLDRx, como métodos baseados nas abordagens temporais ou LD, espera-se, portanto, que forneçam estimativas empíricas próximas às N e sob isolamento. Em contraste, essas estimativas são indicadores pobres de equilíbrio N eIRx com baixas taxas de migração. Na verdade, local N eVRx em equilíbrio nunca está nem perto do local N eIRx para qualquer valor de m, e local N eLDRx só se aproxima em taxas de migração muito altas quando toda a metapopulação está em pânico ou quase isso.

Valores de equilíbrio para consanguinidade local (N eIRx), variância (N eVRx), e desequilíbrio de ligação (N eLDRx) tamanho efetivo em diferentes taxas de migração positiva (m& # x000a0 & # x0003e & # x000a00). Os valores referem-se a uma metapopulação de modelo de ilha com 10 subpopulações ideais de tamanho N ex& # x000a0 = & # x000a0N cx& # x000a0 = & # x000a050 na migração & # x02010 equilíbrio de deriva. Observe que a condição de equilíbrio implica que a curva para N eIRx coincide com o do tamanho efetivo do valor próprio (N eE), que reflete o tamanho efetivo da consanguinidade global (N eIMeta) em equilíbrio

O tempo necessário para alcançar o equilíbrio de migração & # x02010drift (Figura & # x200B (Figura 3) 3) pode ser muito longo com taxas de migração baixas. Assim, para m '& # x000a0= & # x000a00.002 (um imigrante por 10 gerações), por exemplo, leva cerca de 800 gerações para N eIRx para se aproximar de seu valor de equilíbrio aproximado de N eIRx& # x000a0 = & # x000a0N eIMeta& # x000a0 = & # x000a0N eE & # x000a0 = & # x000a01.590 na presente metapopulação (s & # x000a0 = & # x000a010, N ex& # x000a0 = & # x000a050), enquanto N eVRx e N eLDRx permanecerá perto de seu valor inicial de N ex& # x000a0 = & # x000a050 durante todo o processo. Além disso, os altos valores de N eIRx em baixas taxas de migração não deve ser mal interpretado como uma sugestão de isolamento completo ou próximo como uma estratégia adequada para o manejo genético de populações subdivididas. A razão é que a endogamia local facilmente se acumula a níveis insatisfatoriamente altos quando a migração é baixa. No presente exemplo com m ' = 0,002, por exemplo, o N eIRx& # x000a0 = & # x000a0500 critério será atendido na geração t & # x000a0& # x02248 & # x000a0275. Neste momento, no entanto, a consanguinidade local aumentou para f& # x000a0 & # x0003e & # x000a00.75, um valor que provavelmente seria considerado inaceitavelmente alto no contexto da conservação genética (ver Laikre et al., 2016 e abaixo).

3.3. Modelo linear de stepping stone

Finalmente, consideramos um modelo de degrau linear ideal com as mesmas características demográficas básicas que os acima, ou seja, com s & # x000a0 = & # x000a010 subpopulações de tamanho ideal N ex& # x000a0 = & # x000a0N cx& # x000a0 = & # x000a050, que agora estão organizados em uma linha e numerados da esquerda para a direita (Figura & # x200B (Figura 4). 4). A migração ocorre apenas entre subpopulações vizinhas e, a cada geração, cada subpopulação recebe em média metade (0,5) imigrante de cada vizinho. Assim, há uma média de um imigrante por geração nas subpopulações 2 & # x020139 (como no modelo de ilha da Figura & # x200B Figura 1), 1), enquanto aqueles nas extremidades (1 e 10) recebem apenas 0,5 imigrantes. Devido a este padrão de migração, a abordagem do equilíbrio é muito mais lenta do que para um modelo de ilha com taxas de migração semelhantes (Figura & # x200B (Figura 4). 4). O tamanho efetivo do autovalor é N eE & # x000a0 = & # x000a0959, e todos os tamanhos efetivos locais esperados para se aproximarem N eE ainda estão longe desse valor após 500 gerações, particularmente aquelas para as populações & # x0201cend & # x0201d (1 e 10).

Quanto aos modelos de ilha, os tamanhos efetivos da variação local realizada na Figura & # x200B Figura 4 4 permanecem logo abaixo de seu valor inicial de N ex& # x000a0 = & # x000a050, e na geração t & # x000a0 = & # x000a0500 nós temos N eVR1& # x000a0 = & # x000a049.3 e N eVR5& # x000a0 = & # x000a049.0. Os valores simulados para o local realizado N eLD para as subpopulações 1 e 5 variam no intervalo N eLDR1,5& # x000a0 = & # x000a042 & # x0201346. Claramente, a tendência de perceber localmente N eV e N eLD seguir trajetórias que são notavelmente diferentes daquelas do local realizado N eI e N eAV persiste também sob o modelo linear stepping stone, que representa um extremo em relação ao modelo da ilha no que diz respeito à conectividade (Allendorf et al., 2013 Kimura & # x00026 Weiss, 1964).


Fundo

As florestas do sul dominadas por pinheiros contêm um terço de todo o carbono florestal nos EUA contíguos [1]. Entre os pinheiros do sul, o pinheiro loblolly é a espécie de madeira comercial mais comum, produtiva e valiosa devido ao seu rápido crescimento e vasto território, compreendendo 80% da área florestal plantada e mais da metade do volume em pé no sul dos Estados Unidos. O pinheiro loblolly se estende ao sul de New Jersey até o centro da Flórida e a oeste até o centro do Texas, ocupando 55 milhões de acres de floresta [2, 3]. Uma vez que as florestas capturam e armazenam dióxido de carbono por meio da fotossíntese, o pinheiro-bravo amplamente plantado no sul dos EUA oferece grande valor na compensação do dióxido de carbono atmosférico e na mitigação das mudanças climáticas causadas pelas emissões de gases de efeito estufa [4, 5].

Ferramentas e recursos genômicos que enfocam a dissecção de características complexas estão revolucionando a criação tradicional de pinheiros loblolly e auxiliam na criação e implantação de genótipos melhor adaptados às mudanças climáticas e capazes de sequestrar maior quantidade de carbono. Dois pré-requisitos essenciais para o desenvolvimento e a aplicação do melhoramento genômico assistido são a caracterização da variação genética e a coleção de marcadores moleculares de todo o genoma. Um alto nível de polimorfismo genético é esperado no pinheiro-bravo devido às suas características de vida, típicas de espécies de coníferas, como longevidade, ampla distribuição geográfica, grande tamanho efetivo de população e alta taxa de cruzamento. Isso foi confirmado em estudos iniciais com isoenzimas [6, 7], marcadores baseados em DNA [8–10] e, especialmente, mais recentemente com marcadores SNP [11–13]. Cerca de 4000 marcadores SNP foram genotipados nos estudos de associação genética anteriores [11, 13, 14], mas muitos mais marcadores são necessários para a seleção genômica [15-18].

Nos estudos anteriores de mapeamento de associação de pinheiros loblolly, uma matriz de genotipagem SNP de alto rendimento Illumina Infinium desenvolvida para genotipagem multiplex de 7216 marcadores SNP foi usada para dissecar o controle genético de diversos traços fenotípicos [11, 13, 14, 19-21]. Esses SNPs foram derivados originalmente de dados de sequenciamento de amplicons com base em uma amostra relativamente pequena, mas ampla de 18 megagametófitos de pinheiro-bravo e usando primers de PCR que foram projetados usando sequências de contig unigene montadas a partir de sequências de marcação de sequência expressa (EST). Finalmente, cerca de 4000 SNPs deste array 7 K SNP eram polimórficos ou poderiam ser genotipados em estudos de acompanhamento [11, 13, 14, 19-21].

Dada a amostragem de distribuição geográfica adequada, a estrutura genética subjacente às populações de pinheiro-bravo também pode ser elucidada usando SNPs. Por exemplo, Eckert et al. [19] analisaram o SNP e os marcadores de repetição de sequência simples (SSR) entre 907 pinheiros loblolly em toda a extensão e descobriram que a estrutura da população refletia principalmente a descontinuidade do rio Mississippi.

A eficiência da reprodução assistida por marcador e da seleção genômica depende amplamente do desequilíbrio de ligação do genoma (LD). Brown et al. [12] encontraram recombinação histórica substancial entre SNPs nos alelos amostrados sequenciados em 19 genes e demonstraram que LD diminuiu significativamente dentro de 2 Kb em pinheiro silvestre. Um estudo amplo do genoma por Chhatre et al. [11] confirmaram a rápida deterioração da LD em pinheiro bravo. Esses estudos sugeriram que um número muito grande de marcadores seria necessário para ligar fenótipos a genótipos em estudos de mapeamento de associação e na seleção genômica dessa espécie. Portanto, para uma espécie como pinheiro silvestre com um grande genoma e rápida degradação de LD, mesmo milhares de marcadores não podem atender ao requisito de identificação de todas as regiões genômicas funcionais importantes. Felizmente, a genotipagem por sequenciamento (GBS), que permite a descoberta e genotipagem simultâneas de marcadores, facilitou a geração de um grande número de marcadores moleculares [22]. No entanto, o tamanho grande e a estrutura complexa do genoma do pinheiro loblolly representam desafios para o resequenciamento de todo o genoma. O conjunto do genoma do pinheiro loblolly v. 1.01 abrange 23,2 Gbp e contém 14,4 milhões de andaimes [23]. Tentativamente, 50.172 genes putativos com um comprimento médio de 2.7 Kbp foram anotados na atual montagem do genoma do pinheiro loblolly [24]. Além disso, vários elementos de DNA altamente repetitivos compõem até 82% do genoma do pinheiro bravo, entre os quais os retrotransposons dominam e compreendem 62% do genoma [23, 24]. Portanto, a redução da complexidade do genoma é altamente desejada para a aplicação de GBS em pinheiro bravo.

Em nosso estudo, usamos toda a região do exoma para o enriquecimento do alvo para limitar o GBS à maioria das regiões de codificação, que representam apenas

40-60 Mbp de espaço de sequência ou menos de 0,2% de todo o genoma do pinheiro loblolly. Nos estudos anteriores, tecnologias para enriquecimento baseado em solução de regiões-alvo de interesse foram desenvolvidas para pinheiro bravo [25-27]. O tamanho da captura foi significativamente expandido devido à melhoria no design da sonda e eficiência de captura, tornando possível capturar até 200 Mbp da sequência alvo com um único design (NimbleGen SeqCap EZ Developer Enrichment Kit). Esses desenvolvimentos possibilitaram que mirássemos e enriquecêssemos todo o exoma do pinheiro silvestre, ampliando muito o número disponível de polimorfismos moleculares no pinheiro silvestre.

Neste estudo, descrevemos o projeto da sonda e a eficiência da captura do exoma do pinheiro silvestre usando o método NimbleGen SeqCap EZ em uma amostra populacional contendo 375 árvores propagadas clonalmente a partir de uma população de mapeamento de associação gerada para a descoberta de alelos de características econômicas de pinheiro II (ADEPT 2) projeto [14]. Os condados de origem são conhecidos por 362 das 375 árvores maternas (Fig. 1). Os SNPs foram identificados alinhando as sequências de captura do exoma ao conjunto do genoma do pinheiro loblolly v. 1.01 [28]. Os genótipos SNP inferidos foram então aplicados para estudar o decaimento de LD e a estrutura da população.

Os condados de origem das árvores maternas coloridas por estados. Este mapa mostra os locais de amostragem de 362 dos 375 pais maternos da população ADEPT2 usada neste estudo


Resultados

Aproximações analíticas

Conforme discutido no Apêndice, se ignorarmos os efeitos da amostragem de indivíduos, o valor esperado de r 2 tem dois componentes, (3) que representam as contribuições para r 2 de deriva e mistura, respectivamente. Em uma população fechada em equilíbrio com constante N, r irá variar aleatoriamente no intervalo [-1, 1] (ou menos, dependendo das frequências dos alelos), de modo que E(r) = 0 e não há mistura LD. Nesse caso, apenas o termo drift é relevante e com base em Weir e Hill (1980) e Hill (1981). Usamos esta expectativa do modelo padrão como um ponto de referência para avaliar os efeitos da migração em r 2 e.

A migração muda os termos de deriva e mistura na Equação 1, de maneiras contrastantes. Primeiro, a migração expande o número total de pais que contribuem para uma população local, e isso reduz o termo de deriva. Quantificamos esse efeito calculando como o pool efetivo de pais (EPP) muda em função de m, n, e N: EPP = N/[(1 − m) 2 + m 2 /(n - 1)] (Equação A1). A magnitude esperada de redução na deriva LD devido à migração é calculada como Δr 2 deriva = 1 / (3 EPP) - 1 / (3N) Ao mesmo tempo, a migração reúne na população local indivíduos que são descendentes de pais com suítes (potencialmente muito) diferentes de frequências alélicas. Isso cria um desequilíbrio na mistura, o que tende a aumentar o LD geral. Quantificamos esse efeito pelo termo Δr 2 misturar (Equação A10). Dois fatores principais determinam a magnitude da mistura LD (Equação A6): diferenciação da população (todo o resto sendo igual, populações geneticamente divergentes criam mais mistura LD) e fração de mistura (LD é mais alto com frações de mistura iguais). Em um modelo de equilíbrio, esses dois fatores atuam de maneiras opostas, pois maiores taxas de migração reduzem os níveis de divergência genética. Como resultado, em condições de equilíbrio, espera-se que o LD da mistura seja maior em níveis relativamente baixos de migração (Figura A1).

A Tabela 1 resume os resultados da aplicação das fórmulas desenvolvidas na Apêndice para os dois cenários de metapopulação gerais. Alguns padrões gerais podem ser observados. Em primeiro lugar, em todos os casos, a contribuição esperada para r 2 da mistura da população [Δr 2 misturar] é pelo menos uma ordem de magnitude menor do que a redução esperada no desvio LD do recrutamento de pais adicionais [Δr 2 deriva] Isso ocorre porque, sob o modelo de equilíbrio assumido, a mistura populacional nunca envolve grandes frações de indivíduos geneticamente divergentes à medida que a divergência populacional aumenta (e com ela a oportunidade de criar grande mistura LD), a taxa de migração também cai drasticamente. Como consequência, esperamos que em todos os casos as reduções no LD devido à migração de equilíbrio superem qualquer LD da mistura adicional. Em segundo lugar, o EPP aumenta apenas lentamente com baixos níveis de migração, de modo que vieses substanciais para cima no local não são esperados até que as taxas de migração sejam bastante altas em termos genéticos (m & gt 5-10%). Terceiro, espera-se que os dois cenários de metapopulação produzam resultados geralmente semelhantes (indexados pela razão /N) para migração baixa e moderada, mas para m Espera-se que o viés de alta & gt 0.1 aumente mais rápido para n = 10, N = 100. Isso é esperado porque com altas taxas de migração, para ambos os cenários deve convergir na metapopulação geral Ne ∼ 1000, que é um múltiplo maior de local Ne para o cenário com N = 100.

Resultados empíricos de simulações

Migração de equilíbrio:

Os principais resultados da simulação para a migração de equilíbrio são plotados nas Figuras 1 e 2. Embora nossas análises aqui se concentrem em viés (para uma avaliação da precisão do método LD, consulte Waples e Do 2010), traçamos intervalos de confiança empíricos (CI's ) na Figura 1, e alguns padrões gerais são dignos de nota: (1) ICs são mais restritos para o cenário [10, 100] porque a variância de aumenta com o verdadeiro Ne (Hill 1981) (2) C.I.'s são mais amplos para mN & lt 1 porque esses cenários têm baixa diversidade genética nas populações locais e menos comparações alélicas para o cálculo r 2 e (3) C.I.'s são mais rígidos para migração moderada (mN = 1–10), porque este nível de migração é suficiente para manter altos níveis de diversidade alélica, mas não tão alto que se torne substancialmente enviesado para cima.

Viés nas estimativas de local Ne (indicado pela razão) em função da quantidade de migração entre as subpopulações. A migração é dimensionada pela taxa de migração (m) (A) ou número de migrantes por geração (mN) (B). Tamanho da subpopulação local (N) foi de 100 ou 500 indivíduos ideais. Os valores mostrados são baseados na média harmônica calculada usando dados para 20 loci ensaiados em S = 100 indivíduos. As linhas verticais em B mostram os 90% centrais da distribuição empírica de.

Comparação de observados a partir de simulações (mesmos dados que são plotados na Figura 1) com valores esperados com base em considerações teóricas (da Tabela 1).

Os resultados da simulação geralmente concordam com as previsões analíticas. Para ambos os cenários de metapopulação, a forma da relação entre /N e m foi semelhante ao previsto. Pouco viés para local foi encontrado para qualquer cenário para baixo ou moderado m, enquanto m ≥ 0,1 produziu um viés para cima mais substancial. Como esperado, este último efeito foi mais forte para N = 100 do que N = 500. Como também esperado, para N = 500, não encontramos nenhuma evidência de viés de baixa que pudesse ser atribuído à mistura da população (ver abaixo a discussão dos resultados para N = 100). Parece que a taxa de migração (m) é um indicador mais confiável do que o número efetivo de migrantes (mNe) das prováveis ​​consequências da migração em (compare as Figuras 1A e 1B).

Dois desvios importantes dos padrões previstos também são evidentes. Primeiro, embora derivações teóricas no Apêndice capturar o padrão geral da relação entre e m, os resultados empíricos mostraram um viés mais ascendente do que o previsto sob altas taxas de migração (Figura 2). O segundo desvio é aquele para o cenário com N = 100, n = 10, observamos um viés de baixa em taxas de migração baixas (média harmônica = 92,9 para m = 0,01 e 80,2 para m = 0,001). Com N = 100, m = 0,01 significa que uma população local em média recebe um imigrante por geração da metapopulação como um todo, e a taxa é de um imigrante a cada 10 gerações durante m = 0,001. Como a migração era estocástica, algumas gerações podem, por acaso, receber um número excepcionalmente grande de imigrantes. Da mesma forma, se um ou alguns migrantes são excepcionalmente bem-sucedidos na reprodução, seus descendentes podem contribuir com uma mistura substancial de LD para a população por várias gerações antes que as associações se decomponham por recombinação. Além disso, porque a média harmônica é fortemente afetada por valores baixos ocasionais e por causa dos efeitos não lineares de m no LD da mistura, esperamos que a redução observada em para taxas de migração baixas se deva a alguns valores baixos, em vez de uma redução generalizada em. Isso é apoiado pelos resultados mostrados na Figura 3, que compara a distribuição de para m = 0,001 com aquele sob isolamento completo. As distribuições são geralmente semelhantes, exceto que o cenário com migração rara produziu quatro estimativas com & lt 40 em comparação com nenhuma para m = 0. Se esses quatro valores forem omitidos, a média harmônica torna-se 98,0, quase idêntica ao valor (= 98,3) para o cenário sem migração. No cenário de migração rara, a frequência de estimativas relativamente altas também foi ligeiramente reduzida (Figura 3), o que pode ser devido a uma pequena quantidade de desequilíbrio residual de migrantes em gerações anteriores.

Distribuição de estimativas para cenários com true Ne = 100 em cada subpopulação local e ou metapopulações de n = 10 subpopulações conectadas por eventos de migração raros (m = 0,001, barras sólidas) ou subpopulações completamente isoladas (barras abertas). Em ambos os casos, cada amostra de S = 100 indivíduos foi retirado de uma única subpopulação, e 20 loci foram usados ​​para a estimativa. A caixa com o asterisco inclui todas as estimativas & gt300.

Para explorar mais essa questão, examinamos os resultados de uma das metapopulações que produziu uma estimativa muito baixa (= 13,8 para a população 10). Usamos o método de Rannala e Mountain (1997) conforme implementado no GeneClass2 (Piry et al. 2004) para procurar migrantes de primeira geração em toda a metapopulação (N = 1000). Três migrantes foram identificados no P & lt nível 0,001 (um em cada nas populações 1, 5 e 9) e foram detectados com alta certeza porque a baixa taxa de migração produziu divergência muito forte (FST = 0,48) e conjuntos essencialmente não sobrepostos de alelos em diferentes populações. Surpreendentemente, nenhum migrante de primeira geração foi detectado na população 10. No entanto, quando as simulações foram usadas para gerar uma gama "provável" de genótipos multilocus que seriam produzidos por cada população (Paetkau et al. 2004), estimou-se que sete indivíduos da população 10 tinham genótipos multilocus com uma probabilidade & lt1 / 1000 de serem produzidos por uma população com frequências alélicas observadas na população 10. A inspeção desses sete indivíduos mostrou que na maioria dos casos eles carregavam um alelo que era raro e um que era comum na população 10 - o padrão que seria esperado para F1 ou retrocruzar a progênie de imigrantes de primeira geração. Concluímos, portanto, que a baixa para a população 10 poderia ser atribuída a um ou alguns imigrantes em uma geração recente que produziu vários descendentes.

Por que os migrantes de primeira geração na população 10 produziram estimativas baixas de Ne enquanto aqueles nas populações 1, 5 e 9 não? (= 88,0, 84,7 e 60,3, respectivamente, para as últimas três populações - abaixo da média, mas bem dentro do intervalo esperado). A razão principal parece ser uma interação com o critério usado para rastrear alelos raros. Nós costumavamos PCRIT = 0,02, que exclui alelos na frequência & lt0,02. A Figura 4 mostra como para cada uma das 10 populações na metapopulação variou em função de PCRIT. Para 6 das populações (Figura 4, linhas pretas), mostrou pouca variação para PCRIT no intervalo [0,01–0,05]. Todas as três populações com migrantes de primeira geração identificados (Figura 4, linhas azuis) tinham valores "típicos" para PCRIT = 0,02–0,05, mas valores drasticamente reduzidos para PCRIT = 0,01 (≤ 22). Alelos "estrangeiros" que ocorrem em apenas um único migrante de primeira geração não podem exceder a frequência de 0,01 em uma amostra de S = 100 indivíduos, portanto, os efeitos de migrantes solitários são eliminados quando PCRIT & gt 0,01 é usado. A linha vermelha na Figura 4 é para a população 10, que mostra um padrão diferente: estimativas altas (∼ 150-170) para PCRIT ≥ 0,03 e estimativas muito baixas (= 11-14) para PCRIT = 0,02 ou 0,01. Quando os sete indivíduos com genótipos altamente improváveis ​​foram excluídos da população 10, o tamanho efetivo estimado saltou dramaticamente para um valor (= 179 usando o PCRIT = 0,02 critério) comparável às estimativas encontradas quando alelos raros (presumivelmente principalmente imigrantes recentes) foram selecionados.

Mudanças em como uma função do critério de exclusão de alelos raros (PCrit) Cada linha mostra dados para uma amostra de S = 100 de uma das 10 subpopulações em uma única metapopulação conectada por migração rara (m = 0,001, conforme mostrado na Figura 3). As três linhas azuis tracejadas são as populações em que exatamente um imigrante de primeira geração foi detectado (deprimido apenas para PCrit = 0,01). A linha vermelha é uma população que parece incluir vários descendentes de imigrantes recentes.

Os resultados discutidos até agora usaram tamanhos de amostra relativamente grandes (S = 100 indivíduos). A Figura 5 mostra que os vieses discutidos acima são ampliados com amostras menores: para baixa migração (m ≤ 0,01), é uma fração menor de N Como S diminui, e para alta migração (m ≥ 0,1) aumenta de forma mais acentuada em comparação com N para menor S. É importante notar que com S = 50, alelos transportados em um estado homozigoto por um único imigrante não serão selecionados em PCRIT = 0,02, e com S = 25 o mesmo critério incluiria qualquer alelo que ocorra até mesmo em uma única cópia nos indivíduos amostrados. Waples e Do (2010) descobriram que a inclusão de alelos singleton estava associada a estimativas tendenciosas para cima de Ne e sugeriu ajuste PCRIT de acordo com o tamanho da amostra para excluir alelos encontrados em apenas uma única cópia. A aplicação desta regra reduziria alguns dos vieses vistos na Figura 5.

A proporção em função da taxa de migração (m) entre as subpopulações. Tamanho da subpopulação local (N) foi de 100 indivíduos ideais. Os valores mostrados são baseados na média harmônica calculada usando dados para 20 loci ensaiados em S = 25–100 indivíduos.

Migração sem equilíbrio:

A migração de pulso em 10 vezes a taxa de equilíbrio levou a vieses substanciais, com a direção do viés dependendo se os imigrantes eram geneticamente divergentes (Figura 6). Quando a migração de fundo (equilíbrio) foi baixa o suficiente para levar a fortes diferenças genéticas entre as populações, a migração de pulso de 10 × diminuiu para uma fração do local Ne. Por outro lado, quando a diferenciação genética era baixa devido à alta migração de fundo, um influxo repentino de grande número de imigrantes inflou a estimativa de Ne, refletindo a realidade de que os pais de toda a metapopulação contribuíram com filhos para a amostra. A migração de pulso com o dobro da taxa de equilíbrio teve efeitos paralelos, mas muito mais modestos (Figura 6).

Efeitos da migração de não equilíbrio (pulso) nas estimativas de Ne para metapopulações simuladas de "modelo de ilha" com n = 10 e verdadeiro local Ne = 100. Depois que as simulações alcançaram o equilíbrio migração-deriva, uma única geração de migração de pulso ocorreu em um nível 2 ou 10 vezes a taxa de equilíbrio m, após o qual amostras de S = 50 indivíduos foram levados para análise genética. Os valores mostrados são a média harmônica em 100 subpopulações replicadas.

Estimativas conjuntas de me Ne:

Com a migração de equilíbrio em m = 0,05 em a n = 10, Ne = 100 metapopulação e tamanhos de amostra de S = 50, de e stim foi tendencioso para baixo (média harmônica = 68) e teve distribuição multimodal, com 25% das estimativas abaixo de 50, 13% entre 125 e 225 e 26% infinito (Figura 7). Em contraste, as estimativas de ldn e tiveram uma distribuição unimodal com um viés moderado para cima (média harmônica = 121, intervalo 62-790, 73% das estimativas entre 50 e 150). Simulações usando os mesmos parâmetros, mas permitindo até 40 alelos por locus e executando por 2.000 gerações antes de coletar dados, produziram resultados de e stim quase idênticos: média harmônica = 72, 24% das estimativas abaixo de 50 e 28% infinito. O ldn e teve um desempenho melhor com os conjuntos de dados de 40 alelos, cujo maior número de comparações alélicas proporcionou maior precisão: média harmônica = 116, e 100% das estimativas caíram no intervalo [50–300] (dados não mostrados). Quando as subpopulações estavam completamente isoladas (m = 0), as estimativas de estímulo e de Ne foram fortemente enviesados ​​para cima e sensíveis à taxa de mutação assumida: média harmônica = 149 assumindo você = 5 × 10 −4 (o valor usado nas simulações) e média harmônica = 360 assumindo você = 10 −6 (valor padrão em Estim) (dados não mostrados).

Distribuição de dados simulados usando ldn e e e stim (Vitalis e Couvet 2001). Um modelo de ilha de migração de equilíbrio foi simulado, com n = 10, local Ne = 100, m = 0.05, S = 50 e 20 loci. As estimativas e stim assumiram que a taxa de mutação era 5 × 10 −4, o valor usado nas simulações. O último compartimento à direita inclui todas as estimativas & gt400. As setas indicam a média harmônica para os dois métodos.

O stim também fornece estimativas da taxa de migração, que não são sensíveis à taxa de mutação presumida. A média foi de 0,01 para o cenário de isolamento e 0,11 para o m = 0,05 cenário. Esses valores médios omitiram réplicas para as quais m não pôde ser estimado porque era infinito (isso excluiu 51% das réplicas de verdade m = 0 e 26% das réplicas para verdadeiro m = 0,05) (dados não mostrados).


Métodos

Todas as análises foram realizadas usando genótipos gerados em trabalhos anteriores. Portanto, para este estudo, nenhuma aprovação de ética animal foi solicitada porque nenhum animal novo foi amostrado.

Os animais usados ​​neste estudo (Tabela 1) faziam parte de uma grande população australiana experimental [7] que inclui os três principais tipos de gado: Bos taurus raças (Angus, Hereford, Limousin e Shorthorn), Bos indicus (Brahman) e bovinos compostos (Tropical Composite, Santa Gertrudis e Belmont Red). Para confirmar nossos achados, os dados de genotipagem de cada tipo de gado (Angus, Brahman e Santa Gertrudis) foram obtidos do consórcio Bovine HapMap [3].

Todos os animais foram genotipados usando o chip BovineHD SNP (Illumina, San Diego http://www.illumina.com/documents/products/datasheets/datasheet_bovineHD.pdf) que inclui 777 962 marcadores. O controle de qualidade e a imputação de dados ausentes na amostra australiana seguiram o procedimento descrito por Bolormaa et al. [8]. Resumidamente, filtros rigorosos foram aplicados a cada SNP (taxa de chamada, posição do mapa duplicado, desvio extremo do equilíbrio de Hardy-Weinberg), resultando em 729 068 SNPs informativos. Os genótipos ausentes foram imputados dentro de cada tipo de raça usando 30 iterações do software BEAGLE [9]. Os genótipos para o mesmo conjunto de SNPs foram extraídos do conjunto de dados Bovine HapMap [10], mas os genótipos ausentes não foram imputados. LD entre cada par de SNPs, medido como r 2, que é menos suscetível a viés devido a diferenças na frequência alélica [4], e diversidade genética dentro da raça (heterozigosidade e proporção de SNPs polimórficos) foram calculados usando PLINK v1.07 [ 11]. Para o cromossomo X, dois cenários foram explorados: um incluindo todos os marcadores e o segundo incluindo apenas marcadores bastante polimórficos com uma frequência de alelo menor (MAF) maior que 0,1 em todas as raças.


Informação sobre o autor

Afiliações

INRA, UMR 1332 de Biologie du Fruit et Pathologie, F-33140, Villenave d'Ornon, França

José Antonio Campoy, Emilie Lerigoleur-Balsemin, Hélène Christmann, Rémi Beauvieux, José Quero-García, Elisabeth Dirlewanger e Teresa Barreneche

Universidade de Bordeaux, UMR 1332 de Biologie du Fruit et Pathologie, F-33140, Villenave d'Ornon, França

José Antonio Campoy, Emilie Lerigoleur-Balsemin, Hélène Christmann, Rémi Beauvieux, José Quero-García, Elisabeth Dirlewanger e Teresa Barreneche

Endereço atual: CNRS, UMR 5602 GEODE, Géographie de l’environnement, F-31058, Toulouse, França

INRA, UAR 0415 SDAR, Services Déconcentrés d’Appui à la Recherche, F 33140, Villenave d'Ornon, França

Endereço atual: INRA, ISVV, UMR Ecophysiologie et Génomique Fonctionnelle de la Vigne, F 33140, Villenave d'Ornon, França


Assista o vídeo: How not to be ignorant about the world. Hans and Ola Rosling (Novembro 2021).