Evaluación de la aplicación de la prueba de la relación Ka/Ks a exones en empalme alternativo

Resumen

Resumen: Recientemente, la prueba de la relación Ka/Ks, que evalúa los potenciales codificadores de proteínas de regiones genómicas en función de sus tasas de divergencia entre sinónimos y no sinónimos, se ha propuesto y utilizado con éxito en anotaciones genómicas de eucariotas. Realizamos sistemáticamente la prueba de la relación Ka/Ks en 925 exones empalmados alternativamente confirmados por transcripción en el genoma humano, que describimos en este manuscrito. Se encontró que el 22,3% de los exones alterno empalmados conservados evolutivamente no pueden pasar la prueba de la relación Ka/Ks, en comparación con el 9,8% de los exones constitutivos. La tasa de falsos negativos fue la más alta (85,7%) para exones con bajas frecuencias de inclusión de transcripciones. Los análisis de exones de empalme alternativo soportados por secuencias de ARNm de longitud completa arrojaron resultados similares, y casi la mitad de los exones involucrados en eventos de empalme alternativos ancestrales no pudieron pasar esta prueba. Nuestro análisis sugiere una dirección futura para incorporar predicciones de empalme alternativas basadas en genómica comparativa con la prueba de relación Ka/Ks en eucariotas más altos con empalme alternativo de ARN extenso.

Contact:[email protected]

1 INTRODUCCIÓN

La genómica comparativa ha proporcionado herramientas poderosas para anotar genomas eucarióticos (Kellis et al., 2003). En un estudio pionero, Nekrutenko et al. (2002) propusieron la ‘prueba de relación Ka/Ks’ para evaluar los potenciales codificadores de proteínas de exones predichos. Esta prueba se basa en la suposición de que la mayoría de las regiones codificantes de proteínas en el genoma humano están bajo una fuerte selección purificadora durante la evolución. Como resultado, sus tasas de divergencia sinónima (Ks) exceden en gran medida las tasas de divergencia no sinónima (Ka), produciendo relaciones Ka/Ks de mucho menos de una en comparaciones de secuencias ortólogas entre humanos y ratones. En una muestra de 1244 exones de 153 genes codificadores de proteínas, la prueba de la relación Ka/Ks dio una tasa de falsos negativos del 8% y una tasa de falsos positivos <5% para exones internos, una precisión que fue mejor que la mayoría de las herramientas de predicción de genes (Nekrutenko et al., 2002). Desde su introducción, la prueba de la relación Ka/Ks se ha utilizado ampliamente y con éxito para mejorar las anotaciones de genomas humanos y de otros mamíferos (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang y Gerstein, 2004).

Una pregunta emergente sobre la prueba de la relación Ka/Ks se refiere a exones alternativamente empalmados en los genomas eucarióticos. Estudios recientes de secuencias expresadas y datos de microarrays han demostrado que el empalme alternativo es un mecanismo generalizado de regulación génica en eucariotas superiores (Lareau et al., 2004; Modrek y Lee, 2002). Hasta tres cuartas partes de los genes codificadores humanos se someten a empalmes alternativos (Johnson et al., 2003). Existe abundante evidencia que sugiere que el empalme alternativo está asociado con relajaciones de la presión de selección durante la evolución (Boue et al., 2003). Por ejemplo, se observa que el empalme alternativo está asociado con una tasa acelerada de creación y pérdida de exones (Modrek y Lee, 2003), nuevas originaciones de exones a partir de elementos de Aluminio (Sorek et al., 2002), tolerancia de codones de terminación prematura (Lewis et al., 2003; Xing y Lee, 2004), y así sucesivamente. Iida y Akashi (2000) investigaron los patrones de divergencia de secuencia de 110 genes codificadores de proteínas de humanos y Drosophila, y encontraron que las regiones de estos genes empalmadas alternativamente tenían valores de Ka/Ks más altos en comparación con las regiones constitutivas. También se han reportado otros ejemplos de Ka/Ks elevados en exones empalmados alternativamente (Filip y Mundy, 2004; Hurst y Pal, 2001). Estas observaciones plantean una cuestión con respecto a la divergencia de la prueba de la relación Ka/Ks entre exones empalmados alternativamente.

2 MÉTODOS

Identificamos exones empalmados alternativamente alineando las secuencias expresadas humanas con el genoma humano (Modrek et al., 2001). Para cuantificar el grado de empalme alternativo para cada exón con empalme alternativo, utilizamos una métrica estándar de empalme alternativo: el nivel de inclusión de exones, definido como el número de EST que incluyeron un exón dividido por el número total de EST que incluyeron o omitieron este exón. Subdividimos los exones empalmados alternativamente en tres clases según sus niveles de inclusión: forma mayor (>2/3), forma media (entre 1/3 y 2/3) y forma menor (<1/3).

Identificamos la secuencia de exones ortólogos para cada exón humano en la secuencia genómica del ortólogo de ratón, como se describió anteriormente (Modrek y Lee, 2003). Para cada par de secuencias de exones ortólogas humano–ratón, se realizó la prueba de relación Ka/Ks siguiendo el protocolo de Nekrutenko et al. (2003a). Brevemente, las secuencias de exones ortólogas de humanos y ratones fueron traducidas y luego alineadas usando CLUSTALW Thompson et al., 1994 bajo parámetros predeterminados. Esta alineación de proteínas se utilizó para sembrar una alineación de secuencias de nucleótidos correspondientes, y se recortaron los huecos en la alineación. Estimamos el número de sustituciones/sitios sinónimos y no sinónimos utilizando las estimaciones de Yang-Nielsen del programa yn00 del paquete PAML (PAML 3.14) (Yang, 1997). Construimos una tabla de contingencia de 2 × 2 utilizando los números de sitios sinónimos/no sinónimos cambiados e inalterados, y probamos si la relación Ka/Ks era significativamente <1 utilizando la prueba exacta de Fisher. Definimos un exón como pasar la prueba de relación Ka/Ks si su Ka/Ks era significativamente < 1 en el nivel P < 0,05.

3 RESULTADOS Y DISCUSIÓN

Compilamos una lista de 925 exones humanos unidos alternativamente que se conservaron entre genomas humanos y ratones, basados en análisis de secuencias expresadas en humanos (Modrek et al., 2001). También compilamos una lista de 10 996 exones constitutivos humanos como control. Todos estos exones eran exones internos flanqueados por intrones en ambos extremos. Realizamos las pruebas de relación Ka/Ks en estos exones siguiendo el protocolo de (Nekrutenko et al., 2003a) (véase la sección Métodos). De los exones constitutivos 9.el 8% no pasó la prueba de la relación Ka/Ks, una relación similar a la que se informó en el estudio inicial (8%) (Nekrutenko et al., 2002) (Cuadro 1). En contraste, el 22,3% de los exones empalmados alternativamente que se están probando no pudieron pasar la prueba de relación Ka/Ks, un aumento de más de 2 veces en comparación con los exones constitutivos. Debido a que, alternativamente, los exones empalmados con diferentes niveles de inclusión de exones (ver definiciones en la sección Métodos) exhibieron diferentes patrones de divergencia evolutiva (Modrek y Lee, 2003; Pan et al., 2004, dividimos los 925 exones empalmados alternativamente en tres clases en función de sus niveles de inclusión de exones (consulte la sección Métodos). La fracción de exones que fallaron en la prueba fue de 16,0% para exones de forma mayor, y aumentó a 85,7% para exones alternativos de forma menor (incluidos <1/3 en las transcripciones). Dado que los exones empalmados alternativamente eran más cortos en promedio, también subdividimos los exones en función de sus tamaños (Fig. 1). Tanto en los exones constitutivos como en los empalmados alternativos, las fracciones que fallaron en la prueba fueron mayores para los exones más cortos, de acuerdo con el estudio original Nekrutenko et al., 2002. Sin embargo, la fracción fue consistentemente mayor en exones empalmados alternativamente después de controlar los tamaños de exones (por ejemplo, 5,4% para exones constitutivos y 16,6% para exones empalmados alternativamente entre 101 y 150 nt; Fig. 1). Los análisis de exones de ratón unidos alternativamente en una comparación ratón-humano produjeron resultados similares (no se muestran los datos).

Nuestro resultado indica que una fracción significativamente mayor de exones empalmados alternativamente en el genoma humano no puede pasar la prueba de la relación Ka/Ks. Sin embargo, esto no se traduce inmediatamente en un aumento de la tasa de falsos negativos de la prueba de la relación Ka/Ks en exones empalmados alternativamente, ya que otras interpretaciones son posibles. ¿Implican realmente estos datos que un número considerable de exones empalmados alternativamente observados en las secuencias EST humanas no representan exones reales, sino que de hecho provienen de artefactos en los datos EST (por ejemplo, errores raros de empalmado) (Modrek y Lee, 2002; Sorek y Safer, 2003)? Esta explicación parece particularmente plausible para exones de forma menor (que se observan en una pequeña fracción de secuencias EST). Para probar esta posibilidad, analizamos un subconjunto de exones empalmados alternativamente que estaban soportados por secuencias de ARNm de longitud completa. Observamos fracciones similares de exones empalmados alternativamente que fallaron en la prueba de la relación Ka/Ks (Tabla 2). Por lo tanto, los exones espurios originados de artefactos EST no pueden explicar nuestros datos. ¿Los exones empalmados que fallan en la prueba de relación Ka/Ks representan en gran medida formas de empalme no funcionales? Para responder a esta pregunta, restringimos nuestro análisis a un conjunto de 120 exones que se empalman alternativamente en transcriptomas humanos y de ratón. Tal patrón de ‘empalme alternativo ancestral’ fue ampliamente adoptado como criterio para eventos de empalme alternativos funcionales (Resch et al., 2004; Sorek et al., 2004a). En estos exones, un 49,2% aún mayor (frente al 22,3% de todos los exones empalmados alternativamente) no pudo pasar la prueba de la relación Ka/Ks (Tabla 1), en consonancia con otro estudio reciente sobre dichos exones (Ohler et al., 2005). Por lo tanto, la hipótesis para las formas de empalme no funcionales tampoco puede explicar nuestros datos. Finalmente, para descartar la influencia potencial de las islas CpG, calculamos la frecuencia de CpG sobre GpC en cada exón, y restringimos nuestro análisis a un subconjunto de exones empalmados alternativamente cuyas relaciones CpG/GpC fueron <0,8 (Iida y Akashi, 2000). De estos exones, el 20,8% no pudo pasar esta prueba, similar al porcentaje para el conjunto total de exones empalmados alternativamente (Tabla 1). Aunque en principio un aumento de la relación Ka/Ks podría reflejar varios mecanismos subyacentes, que no es el foco de este manuscrito, nuestros análisis de control indican que una gran fracción de exones alternativos funcionales en el genoma humano fallan en la prueba de la relación Ka/Ks.

Los exones constitutivos superan en número a los exones empalmados alternativamente en la mayoría de los genes codificadores de proteínas. Dado que en muchos organismos la cobertura de secuencias de transcripción (por ejemplo, ESTs) es todavía bastante baja, la prueba de la relación Ka/Ks es una herramienta poderosa para refinar las predicciones computacionales de la estructura génica. Sin embargo, la mayoría de los genes codificadores de proteínas de los mamíferos están empalmados alternativamente, y un pequeño número de exones empalmados alternativamente podrían tener profundos impactos funcionales y regulatorios, como lo ilustra recientemente el empalmado alternativo del dominio C2A de Piccolo (Garcia et al., 2004) y muchos otros. Nuestro análisis sugiere que en organismos con un empalme alternativo extenso (por ejemplo, mamíferos) es preferible combinar la prueba de la relación Ka/Ks con otras métricas que indiquen la probabilidad de un empalme alternativo. Afortunadamente, la genómica evolutiva también ha arrojado luz sobre los rasgos típicos de los exones empalmes alternativos funcionales , que se han utilizado con éxito en las predicciones (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Esta información se puede integrar con la prueba de la relación Ka/Ks para una evaluación más precisa de los potenciales codificadores de proteínas de las regiones genómicas.

Fig. 1

La prueba de relación Ka/Ks en exones constitutivos y, alternativamente, empalmados con diferentes tamaños. (A) Exones constitutivos y (B) exones alternativamente empalmados.

Fig. 1

La prueba de relación Ka/Ks en exones constitutivos y, alternativamente, empalmados con diferentes tamaños. (A) Exones constitutivos y (B) exones alternativamente empalmados.

Tabla 1

Exones que pase o no la Ka/Ks prueba de razón de

Tipos de exones . Número total . Longitud media (pa). # Fail . # Pass . % de error . Media (mediana) de Ka/Ks .
Constitutiva 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Mayor forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tipos de exones . Número total . Longitud media (pa). # Fail . # Pass . % de error . Media (mediana) de Ka/Ks .
Constitutiva 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Mayor forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medio-forma) 253 129 69 184 27.3 0.235 (0.113)
Alt (Menores de forma) 42 81 36 6 85.7 0.649 (0.410)
Ancestrales Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabla 1

Exones que pase o no la Ka/Ks prueba de razón de

Tipos de exones . Número total . Longitud media (pa). # Fail . # Pass . % de error . Media (mediana) de Ka/Ks .
Constitutiva 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Mayor forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tipos de exones . Número total . Longitud media (pa). # Fail . # Pass . % de error . Media (mediana) de Ka/Ks .
Constitutiva 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Mayor forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medio-forma) 253 129 69 184 27.3 0.235 (0.113)
Alt (Menores de forma) 42 81 36 6 85.7 0.649 (0.410)
Ancestrales Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabla 2

Exones humanos arnm que pase o no la Ka/Ks prueba de razón de

Tipos de exones . Número total . # Fail . # Pass . % de error .
Constitutiva 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Mayor forma) 618 99 519 16.0
Alt (Medio-forma) 170 39 131 22.9
Alt (Menores de forma) 23 20 3 87.0
Tipos de exones . Número total . # Fail . # Pass . % de error .
Constitutiva 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Mayor forma) 618 99 519 16.0
Alt (Medio-forma) 170 39 131 22.9
Alt (Menores de forma) 23 20 3 87.0
Tabla 2

Exones humanos arnm que pase o no la Ka/Ks prueba de razón de

Tipos de exones . Número total . # Fail . # Pass . % de error .
Constitutiva 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Mayor forma) 618 99 519 16.0
Alt (Medio-forma) 170 39 131 22.9
Alt (Menores de forma) 23 20 3 87.0
Tipos de exones . Número total . # Fail . # Pass . % de error .
Constitutiva 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Mayor forma) 618 99 519 16.0
Alt (Medio-forma) 170 39 131 22.9
Alt (Menores de forma) 23 20 3 87.0

Los autores agradecen a Anton Nekrutenko para la lectura de nuestro manuscrito y por los útiles comentarios. Este trabajo contó con el apoyo de la Beca U54-RR021813 de los NIH, un premio de Profesor Académico a C. J. L. de la Fundación Dreyfus, una beca DOE DE-FC02-02ER63421. Y. X. cuenta con el apoyo de una beca de tesis doctoral de UCLA.

Conflicto de intereses: no declarado.

Boue, S., et al.

2003

Empalme y evolución alternativos.

Bioensayos
25
1031

-1034

Filip, L. C. and Mundy, N. I.

2004

Evolución rápida por selección darwiniana positiva en el dominio extracelular de la abundante proteína linfocitaria CD45 en primates.

Mol. Biol. Evol.
21
1504

-1511

García, J., et al.

2004

Un interruptor conformacional en el dominio Piccolo C2A regulado por empalme alternativo.

Nat. Estructura. Mol. Biol.
11
45

-53

Hurst, L. D. y Pal, C.

2001

la Evidencia para la purificación de selección que actúen en silencio sitios en los genes BRCA1.

Tendencias Genet.
17
62

-65

Iida, K. y Akashi, H.

2000

A test of translational selection at ‘silent’ sites in the human genome: base composition comparisons in alternatively spliced genes.

Gen
261
93

-105

Johnson, J. M., et al.

2003

Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.

Ciencia
302
2141

-2144

Kellis, M., et al.

2003

Secuenciación y comparación de especies de levadura para identificar genes y elementos reguladores.

Naturaleza
423
241

-254

Lareau, L. F., et al.

2004

Las funciones cambiantes del empalme alternativo.

Curr. Opin. Estructura. Biol.
14
273

-282

Lewis, B. P., et al.

2003

Evidencia del acoplamiento generalizado del empalme alternativo y la descomposición del ARNm mediada por tonterías en humanos.

Proc. Natl Acad. Sci. Estados UNIDOS
100
189

-192

Miller, W., et al.

2004

Genómica comparativa.

Anu. Modif. De La Genómica Hum. Genet.
5
15

-56

Modrek, B. y Lee, C.

2002

Un punto de vista genómico de splicing alternativo.

Nat. Genet.
30
13

-19

Modrek, B. y Lee, C.

2003

El empalme alternativo en los genomas humano, ratón y rata está asociado con una mayor tasa de creación/pérdida de exones.

Nat. Genet.
34
177

-180

Modrek, B., et al.

2001

Análisis de todo el genoma de empalmes alternativos utilizando datos de secuencias expresadas por humanos.

Ácidos nucleicos Res.
29
2850

-2859

Nekrutenko, A.

2004

Reconciling the numbers: ESTs versus genes codificadores de proteínas.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

La prueba de cociente K(A)/K(S) para evaluar el potencial codificador de proteínas de regiones genómicas: un estudio empírico y de simulación.

el Genoma Res.
12
198

-202

Nekrutenko, A., et al.

2003

ETOPE: prueba evolutiva de exones predichos.

Ácidos nucleicos Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

Un enfoque evolutivo revela una alta capacidad de codificación de proteínas del genoma humano.

Tendencias Genet.
19
306

-310

Ohler, U., et al.

2005

Reconocimiento de exones separados alternativamente conservados desconocidos.

PLoS Comp. Biol.
1
e15

Pan, P., et al.

2004

Revelando las características regulatorias globales del empalme alternativo de mamíferos utilizando una plataforma de microarrays cuantitativos.

Mol. Celular.
16
929

-941

Philipps, D. L., et al.

2004

A computational and experimental approach toward a priori identification of alternatively splicited exons.

ARN
10
1838

-1844

Resch, A., et al.

2004

Evidencia de una subpoblación de eventos de empalme alternativos conservados bajo presión de selección para la preservación del marco de lectura de proteínas.

Ácidos nucleicos Res.
32
1261

-1269

Sorek, R. y Ast, G.

2003

Secuencias intrónicas que flanquean exones alternativamente empalmados se conservan entre humanos y ratones.

el Genoma Res.
13
1631

-1637

Sorek, R. y Segura, H. M.

2003

A novel algorithm for computational identification of contaminated EST libraries (en inglés).

Nucleic Acids Res.
31
1067

-1074

Sorek, R., et al.

2002

Los exones que contienen aluminio se empalman alternativamente.

el Genoma Res.
12
1060

-1067

Sorek, R., et al.

2004

¿Qué tan frecuente es el empalme alternativo funcional en el genoma humano?

Tendencias Genet
20
68

-71

Sorek, R., et al.

2004

Método no basado en EST para la predicción de saltos de exones.

el Genoma Res.
14
1617

-1623

Thompson, J. D., et al.

1994

CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de secuencias múltiples a través de la ponderación de secuencias, las penalizaciones de separación específicas de la posición y la elección de la matriz de peso.

Ácidos nucleicos Res.
22
4673

-4680

Xing, Y. y Lee, C.

2004

La presión de selección negativa contra el truncamiento prematuro de proteínas se reduce mediante empalmes alternativos y diploidía.

Tendencias Genet.
20
472

-475

Yang, Z.

1997

PAML: un paquete de programa para el análisis filogenético por máxima verosimilitud.

Comput. Appl. Biosci.
13
555

-556

Yeo, G. W., et al.

2005

Identificación y análisis de eventos de empalme alternativos conservados en humanos y ratones.

Proc. Natl Acad. Sci. Estados UNIDOS
102
2850

-2855

Zhang, Z. y Gerstein, M.

2004

análisis a Gran escala de pseudogenes en el genoma humano.

Curr. Opin. Genet. Dev.
14
328

–335

Deja una respuesta

Tu dirección de correo electrónico no será publicada.