Resumo
Resumo: Recentemente, o Ka/Ks teste de razão, que avalia os codificadores de proteínas potenciais de regiões genômicas com base em sua não-sinônimo sinônimo de taxas de divergência, tem sido proposto e utilizado com sucesso no genoma anotações de eucariotas. Realizamos sistematicamente o teste da razão Ka/KS em 925 exons emendados alternativos confirmados por transcrição no genoma humano, que descrevemos neste manuscrito. Descobrimos que 22,3% dos exons emendados alternativos conservados evolutivamente não podem passar no teste da relação Ka/Ks, em comparação com 9,8% para exons constitutivos. A taxa de falsos negativos foi a mais alta (85,7%) para exons com baixas frequências de inclusão de transcrição. Análises de exons alternativamente emendados apoiados por sequências de mRNA de corpo inteiro produziram resultados semelhantes, e quase metade dos exons envolvidos em eventos de emenda alternativos ancestrais não puderam passar neste teste. Nossa análise sugere uma direção futura para incorporar previsões de splicing alternativas baseadas em genômica comparativa com o teste de proporção Ka/Ks em eucariotos superiores com splicing alternativo de RNA extenso.
Contact:[email protected]
1. INTRODUÇÃO
genômica Comparativa tem fornecido ferramentas poderosas para anotações de genomas eucarióticos (Kellis et al., 2003). Em um estudo pioneiro, Nekrutenko et al. (2002) propôs o ‘teste da razão Ka/KS’ para avaliar os potenciais de codificação de proteínas dos exons previstos. Este teste é baseado na suposição de que a maioria das regiões codificadoras de proteínas no genoma humano está sob forte seleção purificadora durante a evolução. Como resultado, suas taxas de divergência sinônima (KS) excedem muito as taxas de divergência não sinônima (Ka), produzindo proporções Ka/Ks de muito menos de um em comparações de sequências ortólogas humano-rato. Em uma amostra de 1244 exons de 153 genes codificadores de proteínas, o teste da razão Ka/Ks deu uma taxa de falso negativo de 8% e uma taxa de falso positivo de <5% para exons internos, uma precisão que foi melhor do que a maioria das ferramentas de previsão de genes (Nekrutenko et al., 2002). Desde a sua introdução, O teste de relação Ka/KS tem sido amplamente e com sucesso usado para melhorar as anotações de genomas humanos e outros mamíferos (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang e Gerstein, 2004).
uma questão emergente sobre o teste da relação Ka/KS refere-se a exons alternativamente emendados nos genomas eucarióticos. Estudos recentes de sequências expressas e dados de microarray mostraram que o splicing alternativo é um mecanismo generalizado de regulação gênica em eucariotos superiores (Lareau et al., 2004; Modrek e Lee, 2002). Até três quartos dos genes codificadores humanos sofrem splicing alternativo (Johnson et al., 2003). Há evidências abundantes que sugerem que o splicing alternativo está associado a relaxações da pressão de seleção durante a evolução (Boue et al., 2003). Por exemplo, observa-se que o splicing alternativo está associado a uma taxa acelerada de criação e perda de exon (Modrek e Lee, 2003), novas origens de exon de elementos Alu (Sorek et al., 2002), tolerância de códons de terminação prematura (Lewis et al., 2003; Xing e Lee, 2004), e assim por diante. Iida e Akashi (2000) investigaram os padrões de divergência de sequência de 110 genes codificadores de proteínas emendados alternativamente de humanos e Drosófila, e descobriram que regiões alternativamente emendadas desses genes tinham valores Ka/Ks mais altos em comparação com regiões constitutivas. Outros exemplos de Ka/Ks elevados em exons alternativamente emendados também foram relatados (Filip e Mundy, 2004; Hurst e Pal, 2001). Essas observações levantam uma questão sobre a divergência do teste da razão Ka/KS entre exons alternativamente emendados.
2 métodos
identificamos exons alternativamente emendados alinhando sequências expressas humanas ao genoma humano (Modrek et al., 2001). Para quantificar o grau de splicing alternativo para cada alternativa emendados exão, utilizou-se uma métrica padrão de splicing alternativo—o éxon nível de inclusão, definido como o número de ESTs, que incluiu uma exão, dividido pelo número total de ESTs que seja incluído ou ignorado este exão. Subdividimos os exons alternativamente emendados em três classes com base em seus níveis de inclusão: forma maior (>2/3), forma média (entre 1/3 e 2/3) e forma menor (<1/3).
identificamos a sequência de exon ortólogo para cada exon humano na sequência genômica do ortólogo do rato, conforme descrito anteriormente (Modrek e Lee, 2003). Para cada par de sequência de exon ortólogo humano-Camundongo, foi realizado o teste de relação Ka/KS seguindo o protocolo de Nekrutenko et al. (2003a). Resumidamente, sequências ortólogas de exon de humanos e camundongos foram traduzidas e depois alinhadas usando CLUSTALW Thompson et al., 1994 sob parâmetros padrão. Este alinhamento proteico foi usado para semear um alinhamento das sequências de nucleotídeos correspondentes, e as lacunas no alinhamento foram aparadas. Estimamos o número de substituições/sites sinônimos e não sinônimos usando as estimativas de Yang-Nielsen do programa yn00 do pacote PAML (PAML 3.14) (Yang, 1997). Construímos uma tabela de contingência 2 × 2 usando os números de locais sinônimos/Não sinônimos alterados e inalterados, e testamos se a relação Ka/KS foi significativamente <1 usando o teste exato de Fisher. Definimos um exon como passando no teste de relação Ka/KS se seu Ka/KS fosse significativamente <1 no nível P < 0,05.
3 resultados e discussão
compilamos uma lista de 925 exons humanos alternativamente emendados que foram conservados entre genomas humanos e camundongos, com base em análises de sequências expressas humanas (Modrek et al., 2001). Também compilamos uma lista de 10 996 exons constitutivos humanos como controle. Todos esses exons eram exons internos ladeados por introns em ambas as extremidades. Realizamos os testes de relação Ka/Ks nesses exons seguindo o protocolo de (Nekrutenko et al., 2003a) (ver secção métodos). Dos exões constitutivos 9.8% não conseguiram passar no teste de relação Ka/Ks, uma proporção semelhante à relatada pelo estudo inicial (8%) (Nekrutenko et al., 2002) (Quadro 1). Em contraste, 22,3% dos exons alternativamente emendados testados não puderam passar no teste da relação Ka/Ks, um aumento de mais de 2 vezes em comparação com os exons constitutivos. Porque exons alternativamente emendados com diferentes níveis de inclusão de exons (ver definições na seção Métodos) exibiram diferentes padrões de divergência evolutiva (Modrek e Lee, 2003; Pan et al., 2004, dividimos os 925 exons alternativamente emendados em três classes com base em seus níveis de inclusão de exon (consulte a seção Métodos). A fração de exons que falhou no teste foi de 16,0% para exons de forma maior e aumentou para 85,7% para exons alternativos de forma menor (incluídos <1/3 nas transcrições). Como os exons emendados alternativamente eram mais curtos em média , também subdividimos os exons com base em seus tamanhos (Fig. 1). Em ambos os exons constitutivos e alternativamente emendados, as frações que falharam no teste foram maiores para exons mais curtos, consistente com o estudo original Nekrutenko et al., 2002. No entanto, a fração foi consistentemente maior em exons emendados alternativamente após o controle para tamanhos de exons (por exemplo, 5,4% para exons constitutivos e 16,6% para exons emendados alternativamente entre 101 e 150 nt; Fig. 1). As análises de exons alternativamente emendados de rato em uma comparação rato–humano produziram resultados semelhantes (dados não mostrados).
nosso resultado indica que uma fração significativamente maior de exons alternativamente emendados no genoma humano não pode passar no teste da relação Ka/KS. No entanto, isso não se traduz imediatamente em um aumento da taxa de falso negativo do teste de relação Ka/Ks em exons alternativamente emendados, uma vez que outras interpretações são possíveis. Esses dados realmente implicam que um número considerável de exons alternativamente emendados observados nas sequências est humanas não representam exons reais, mas de fato vêm de artefatos nos dados EST (por exemplo, erros spliceosomal raros) (Modrek e Lee, 2002; Sorek e Safer, 2003)? Esta explicação parece particularmente plausível para exons de forma menor (que são observados em uma pequena fração de sequências EST). Para testar essa possibilidade, analisamos um subconjunto de exons alternativamente emendados que foram suportados por sequências de mRNA de comprimento total. Observamos frações semelhantes de exons alternativamente emendados falhando no teste da relação Ka/Ks (Tabela 2). Portanto, exons espúrios originados de artefatos EST não podem explicar nossos dados. Os exons emendados alternativamente falhando no teste da relação Ka/Ks representam em grande parte formas de emenda não funcionais? Para responder a essa pergunta, restringimos nossa análise a um conjunto de 120 exons que foram alternativamente Unidos em transcriptomas humanos e de camundongos. Tal padrão de ‘splicing alternativo ancestral’ foi amplamente adotado como critério para eventos de splicing alternativo funcional (Resch et al., 2004; Sorek et al., 2004a). Nesses exons, 49,2% (versus 22,3% de todos os exons emendados alternativamente) não puderam passar no teste da razão Ka/Ks (Tabela 1), consistente com outro estudo recente sobre esses exons (Ohler et al., 2005). Portanto, a hipótese para formas de emenda não funcionais também não pode explicar nossos dados. Finalmente, para descartar a influência potencial das Ilhas CpG, calculamos a frequência de CpG sobre GpC em cada exon e restringimos nossa análise a um subconjunto de exons alternativamente emendados cujas proporções de CpG/GpC foram < 0,8 (Iida e Akashi, 2000). Desses exons 20,8% não puderam passar neste teste, semelhante à porcentagem para o conjunto total de exons alternativamente emendados (Tabela 1). Embora, em princípio , uma relação Ka/KS aumentada possa refletir vários mecanismos subjacentes, o que não é o foco deste manuscrito, nossas análises de controle indicam que uma grande fração de exons alternativos funcionais no genoma humano falha no teste da relação Ka/Ks.
os exons constitutivos superam os exons alternativamente emendados na maioria dos genes codificadores de proteínas. Como em muitos organismos a cobertura da sequência de transcrição (por exemplo, ESTs) ainda é bastante baixa, o teste de relação Ka/KS é uma ferramenta poderosa para refinar as previsões da estrutura genética computacional. No entanto, a maioria dos genes codificadores de proteínas de mamíferos são alternativamente emendados, e um pequeno número de exons alternativamente emendados pode ter impactos funcionais e regulatórios profundos, como recentemente ilustrado pela emenda alternativa do domínio C2A de Piccolo (Garcia et al., 2004) e muitos outros. Nossa análise sugere que em organismos com splicing alternativo extensivo (por exemplo, Mamíferos) é preferível combinar o teste de proporção Ka/KS com outras métricas que indicam a probabilidade de splicing alternativo. Felizmente, a genômica evolutiva também lançou luz sobre os traços típicos de exons funcionais alternativamente emendados, que foram usados com sucesso em previsões (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Essas informações podem ser integradas com o teste de relação Ka/KS para uma avaliação mais precisa dos potenciais de codificação de proteínas das regiões genômicas.
o teste da relação Ka/Ks em exons constitutivos e alternativamente emendados com tamanhos diferentes. (A) exons constitutivos e (B) exons alternativamente emendados.
o teste da relação Ka/Ks em exons constitutivos e alternativamente emendados com tamanhos diferentes. (A) exons constitutivos e (B) exons alternativamente emendados.
Exões que passar ou não o Ka/Ks teste de razão de
Tipos de exões . | Total#. | comprimento médio (Pa) . | # falha . | # Pass . | % falha . | média (mediana) Ka / Ks . |
---|---|---|---|---|---|---|
Constitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-formulário) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Tipos de exões . | Total#. | comprimento médio (Pa) . | # falha . | # Pass . | % falha . | média (mediana) Ka / Ks . |
---|---|---|---|---|---|---|
Constitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-formulário) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Médio-formulário) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Menor de idade-formulário) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (Dpg/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exões que passar ou não o Ka/Ks teste de razão de
Tipos de exões . | Total#. | comprimento médio (Pa) . | # falha . | # Pass . | % falha . | média (mediana) Ka / Ks . |
---|---|---|---|---|---|---|
Constitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-formulário) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Tipos de exões . | Total#. | comprimento médio (Pa) . | # falha . | # Pass . | % falha . | média (mediana) Ka / Ks . |
---|---|---|---|---|---|---|
Constitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-formulário) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Médio-formulário) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Menor de idade-formulário) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (Dpg/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exões suportado por humanos mRNAs que passar ou não o Ka/Ks teste de razão de
Tipos de exões . | Total#. | # falha . | # Pass . | % falha . |
---|---|---|---|---|
Constitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-formulário) | 618 | 99 | 519 | 16.0 |
Alt (Médio-formulário) | 170 | 39 | 131 | 22.9 |
Alt (Menor de idade-formulário) | 23 | 20 | 3 | 87.0 |
Tipos de exões . | Total#. | # falha . | # Pass . | % falha . |
---|---|---|---|---|
Constitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-formulário) | 618 | 99 | 519 | 16.0 |
Alt (Médio-formulário) | 170 | 39 | 131 | 22.9 |
Alt (Menor de idade-formulário) | 23 | 20 | 3 | 87.0 |
Exões suportado por humanos mRNAs que passar ou não o Ka/Ks teste de razão de
Tipos de exões . | Total#. | # falha . | # Pass . | % falha . |
---|---|---|---|---|
Constitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-formulário) | 618 | 99 | 519 | 16.0 |
Alt (Médio-formulário) | 170 | 39 | 131 | 22.9 |
Alt (Menor de idade-formulário) | 23 | 20 | 3 | 87.0 |
Tipos de exões . | Total#. | # falha . | # Pass . | % falha . |
---|---|---|---|---|
Constitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-formulário) | 618 | 99 | 519 | 16.0 |
Alt (Médio-formulário) | 170 | 39 | 131 | 22.9 |
Alt (Menor de idade-formulário) | 23 | 20 | 3 | 87.0 |
Os autores agradecem Anton Nekrutenko para a leitura de nosso manuscrito e para os comentários. Este trabalho foi apoiado por NIH Grant U54-RR021813, um prêmio professor-acadêmico para C. J. L. da Fundação Dreyfus, um Doe grant de-FC02-02ER63421. Y. X. É apoiado por um Ph. D. dissertação fellowship da UCLA.Conflito de interesses: nenhum declarado.
Boue, S., et al.
splicing alternativo e evolução.
-1034
Filip, L. C. e Mundy, N. I.
a Rápida evolução positiva Darwinista de seleção no domínio extracelular da abundante de linfócitos proteína CD45 em primatas.
-1511
Garcia, J., et al.
um interruptor conformacional no domínio Piccolo C2A regulado por splicing alternativo.
-53
Hurst, L. D. e Pal, C.
Evidência para a purificação de seleção atuando em locais silenciosos em BRCA1.
-65
Iida, K. e Akashi, H.
um teste de seleção translacional em locais “silenciosos” no genoma humano: comparações de composição de base em genes emendados alternativamente.
-105
Johnson, J. M., et al.
pesquisa genômica de splicing pré-mRNA alternativo humano com microarrays de junção exon.
-2144
Kellis, M., et al.
sequenciamento e comparação de espécies de leveduras para identificar genes e elementos reguladores.
-254
Lareau, L. F., et al.
os papéis em evolução da emenda alternativa.
-282
Lewis, B. P., et al.
evidências para o acoplamento generalizado de splicing alternativo e decaimento de mRNA mediado por bobagens em humanos.
-192
Miller, W., et al.
genômica comparativa.
-56
Modrek, B. e Lee, C.
Um genómico de vista de splicing alternativo.
-19
Modrek, B. e Lee, C.
a emenda alternativa nos genomas humano, rato e rato está associada a uma taxa aumentada de criação/perda de exon.
-180
Modrek, B., et al.
análise genômica de splicing alternativo usando dados de sequência expressa humana.
-2859
Nekrutenko, A.
Conciliar os números: Cdna versus genes codificadores de proteínas.
-1282
Nekrutenko, A., et al.
o teste de relação K(A)/K(S) para avaliar o potencial de codificação de proteínas das regiões genômicas: um estudo empírico e de simulação.
-202
Nekrutenko, A., et al.
ETOPE: teste evolutivo dos exons previstos.
-3567
Nekrutenko, A., et al.
uma abordagem evolutiva revela uma alta capacidade de codificação de proteínas do genoma humano.
-310
Ohler, U., et al.
reconhecimento de exons desconhecidos conservados alternativamente emendados.
Pan, P., et al.
revelando características regulatórias globais de splicing alternativo de mamíferos usando uma plataforma quantitativa de microarray.
-941
Philipps, D. L., et al.
uma abordagem computacional e experimental para a identificação a priori de exons alternativamente emendados.
-1844
Resch, A., et al.
evidência para uma subpopulação de eventos alternativos conservados da emenda sob a pressão da seleção para a preservação do quadro da leitura da proteína.
-1269
Sorek, R. e Ast, G.
Intrônicos sequências de acompanhamento, em alternativa emendados éxons são conservados entre o ser humano e rato.
-1637
Sorek, R. e Segura, H. M.
um novo algoritmo para identificação computacional de bibliotecas est contaminadas.
-1074
Sorek, R., et al.
os exons contendo Alu são alternativamente emendados.
-1067
Sorek, R., et al.
quão prevalente é a emenda alternativa funcional no genoma humano?
-71
Sorek, R., et al.
um método não baseado em EST para previsão de exon-skipping.
-1623
Thompson, J. D., et al.
CLUSTAL W: melhorando a sensibilidade do alinhamento progressivo de múltiplas sequências através da ponderação de sequência, penalidades de folga específicas de posição e escolha da matriz de peso.
-4680
Corrigindo, Y. e Lee, C.
selecção Negativa de pressão contra a proteína de truncamento é reduzido tanto por splicing alternativo e diploidy.
-475
Yang, Z.
PAML: um pacote de programas para análise filogenética por máxima verossimilhança.
-556
Yeo, G. W., et al.
identificação e análise de eventos alternativos de splicing conservados em humanos e ratos.
-2855
Zhang, Z. e Gerstein, M.
em Grande escala de análise de pseudogenes no genoma humano.
–335