Resumen
Resumen: Recientemente, la prueba de la relación Ka/Ks, que evalúa los potenciales codificadores de proteínas de regiones genómicas en función de sus tasas de divergencia entre sinónimos y no sinónimos, se ha propuesto y utilizado con éxito en anotaciones genómicas de eucariotas. Realizamos sistemáticamente la prueba de la relación Ka/Ks en 925 exones empalmados alternativamente confirmados por transcripción en el genoma humano, que describimos en este manuscrito. Se encontró que el 22,3% de los exones alterno empalmados conservados evolutivamente no pueden pasar la prueba de la relación Ka/Ks, en comparación con el 9,8% de los exones constitutivos. La tasa de falsos negativos fue la más alta (85,7%) para exones con bajas frecuencias de inclusión de transcripciones. Los análisis de exones de empalme alternativo soportados por secuencias de ARNm de longitud completa arrojaron resultados similares, y casi la mitad de los exones involucrados en eventos de empalme alternativos ancestrales no pudieron pasar esta prueba. Nuestro análisis sugiere una dirección futura para incorporar predicciones de empalme alternativas basadas en genómica comparativa con la prueba de relación Ka/Ks en eucariotas más altos con empalme alternativo de ARN extenso.
Contact:[email protected]
1 INTRODUCCIÓN
La genómica comparativa ha proporcionado herramientas poderosas para anotar genomas eucarióticos (Kellis et al., 2003). En un estudio pionero, Nekrutenko et al. (2002) propusieron la ‘prueba de relación Ka/Ks’ para evaluar los potenciales codificadores de proteínas de exones predichos. Esta prueba se basa en la suposición de que la mayoría de las regiones codificantes de proteínas en el genoma humano están bajo una fuerte selección purificadora durante la evolución. Como resultado, sus tasas de divergencia sinónima (Ks) exceden en gran medida las tasas de divergencia no sinónima (Ka), produciendo relaciones Ka/Ks de mucho menos de una en comparaciones de secuencias ortólogas entre humanos y ratones. En una muestra de 1244 exones de 153 genes codificadores de proteínas, la prueba de la relación Ka/Ks dio una tasa de falsos negativos del 8% y una tasa de falsos positivos <5% para exones internos, una precisión que fue mejor que la mayoría de las herramientas de predicción de genes (Nekrutenko et al., 2002). Desde su introducción, la prueba de la relación Ka/Ks se ha utilizado ampliamente y con éxito para mejorar las anotaciones de genomas humanos y de otros mamíferos (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang y Gerstein, 2004).
Una pregunta emergente sobre la prueba de la relación Ka/Ks se refiere a exones alternativamente empalmados en los genomas eucarióticos. Estudios recientes de secuencias expresadas y datos de microarrays han demostrado que el empalme alternativo es un mecanismo generalizado de regulación génica en eucariotas superiores (Lareau et al., 2004; Modrek y Lee, 2002). Hasta tres cuartas partes de los genes codificadores humanos se someten a empalmes alternativos (Johnson et al., 2003). Existe abundante evidencia que sugiere que el empalme alternativo está asociado con relajaciones de la presión de selección durante la evolución (Boue et al., 2003). Por ejemplo, se observa que el empalme alternativo está asociado con una tasa acelerada de creación y pérdida de exones (Modrek y Lee, 2003), nuevas originaciones de exones a partir de elementos de Aluminio (Sorek et al., 2002), tolerancia de codones de terminación prematura (Lewis et al., 2003; Xing y Lee, 2004), y así sucesivamente. Iida y Akashi (2000) investigaron los patrones de divergencia de secuencia de 110 genes codificadores de proteínas de humanos y Drosophila, y encontraron que las regiones de estos genes empalmadas alternativamente tenían valores de Ka/Ks más altos en comparación con las regiones constitutivas. También se han reportado otros ejemplos de Ka/Ks elevados en exones empalmados alternativamente (Filip y Mundy, 2004; Hurst y Pal, 2001). Estas observaciones plantean una cuestión con respecto a la divergencia de la prueba de la relación Ka/Ks entre exones empalmados alternativamente.
2 MÉTODOS
Identificamos exones empalmados alternativamente alineando las secuencias expresadas humanas con el genoma humano (Modrek et al., 2001). Para cuantificar el grado de empalme alternativo para cada exón con empalme alternativo, utilizamos una métrica estándar de empalme alternativo: el nivel de inclusión de exones, definido como el número de EST que incluyeron un exón dividido por el número total de EST que incluyeron o omitieron este exón. Subdividimos los exones empalmados alternativamente en tres clases según sus niveles de inclusión: forma mayor (>2/3), forma media (entre 1/3 y 2/3) y forma menor (<1/3).
Identificamos la secuencia de exones ortólogos para cada exón humano en la secuencia genómica del ortólogo de ratón, como se describió anteriormente (Modrek y Lee, 2003). Para cada par de secuencias de exones ortólogas humano–ratón, se realizó la prueba de relación Ka/Ks siguiendo el protocolo de Nekrutenko et al. (2003a). Brevemente, las secuencias de exones ortólogas de humanos y ratones fueron traducidas y luego alineadas usando CLUSTALW Thompson et al., 1994 bajo parámetros predeterminados. Esta alineación de proteínas se utilizó para sembrar una alineación de secuencias de nucleótidos correspondientes, y se recortaron los huecos en la alineación. Estimamos el número de sustituciones/sitios sinónimos y no sinónimos utilizando las estimaciones de Yang-Nielsen del programa yn00 del paquete PAML (PAML 3.14) (Yang, 1997). Construimos una tabla de contingencia de 2 × 2 utilizando los números de sitios sinónimos/no sinónimos cambiados e inalterados, y probamos si la relación Ka/Ks era significativamente <1 utilizando la prueba exacta de Fisher. Definimos un exón como pasar la prueba de relación Ka/Ks si su Ka/Ks era significativamente < 1 en el nivel P < 0,05.
3 RESULTADOS Y DISCUSIÓN
Compilamos una lista de 925 exones humanos unidos alternativamente que se conservaron entre genomas humanos y ratones, basados en análisis de secuencias expresadas en humanos (Modrek et al., 2001). También compilamos una lista de 10 996 exones constitutivos humanos como control. Todos estos exones eran exones internos flanqueados por intrones en ambos extremos. Realizamos las pruebas de relación Ka/Ks en estos exones siguiendo el protocolo de (Nekrutenko et al., 2003a) (véase la sección Métodos). De los exones constitutivos 9.el 8% no pasó la prueba de la relación Ka/Ks, una relación similar a la que se informó en el estudio inicial (8%) (Nekrutenko et al., 2002) (Cuadro 1). En contraste, el 22,3% de los exones empalmados alternativamente que se están probando no pudieron pasar la prueba de relación Ka/Ks, un aumento de más de 2 veces en comparación con los exones constitutivos. Debido a que, alternativamente, los exones empalmados con diferentes niveles de inclusión de exones (ver definiciones en la sección Métodos) exhibieron diferentes patrones de divergencia evolutiva (Modrek y Lee, 2003; Pan et al., 2004, dividimos los 925 exones empalmados alternativamente en tres clases en función de sus niveles de inclusión de exones (consulte la sección Métodos). La fracción de exones que fallaron en la prueba fue de 16,0% para exones de forma mayor, y aumentó a 85,7% para exones alternativos de forma menor (incluidos <1/3 en las transcripciones). Dado que los exones empalmados alternativamente eran más cortos en promedio, también subdividimos los exones en función de sus tamaños (Fig. 1). Tanto en los exones constitutivos como en los empalmados alternativos, las fracciones que fallaron en la prueba fueron mayores para los exones más cortos, de acuerdo con el estudio original Nekrutenko et al., 2002. Sin embargo, la fracción fue consistentemente mayor en exones empalmados alternativamente después de controlar los tamaños de exones (por ejemplo, 5,4% para exones constitutivos y 16,6% para exones empalmados alternativamente entre 101 y 150 nt; Fig. 1). Los análisis de exones de ratón unidos alternativamente en una comparación ratón-humano produjeron resultados similares (no se muestran los datos).
Nuestro resultado indica que una fracción significativamente mayor de exones empalmados alternativamente en el genoma humano no puede pasar la prueba de la relación Ka/Ks. Sin embargo, esto no se traduce inmediatamente en un aumento de la tasa de falsos negativos de la prueba de la relación Ka/Ks en exones empalmados alternativamente, ya que otras interpretaciones son posibles. ¿Implican realmente estos datos que un número considerable de exones empalmados alternativamente observados en las secuencias EST humanas no representan exones reales, sino que de hecho provienen de artefactos en los datos EST (por ejemplo, errores raros de empalmado) (Modrek y Lee, 2002; Sorek y Safer, 2003)? Esta explicación parece particularmente plausible para exones de forma menor (que se observan en una pequeña fracción de secuencias EST). Para probar esta posibilidad, analizamos un subconjunto de exones empalmados alternativamente que estaban soportados por secuencias de ARNm de longitud completa. Observamos fracciones similares de exones empalmados alternativamente que fallaron en la prueba de la relación Ka/Ks (Tabla 2). Por lo tanto, los exones espurios originados de artefactos EST no pueden explicar nuestros datos. ¿Los exones empalmados que fallan en la prueba de relación Ka/Ks representan en gran medida formas de empalme no funcionales? Para responder a esta pregunta, restringimos nuestro análisis a un conjunto de 120 exones que se empalman alternativamente en transcriptomas humanos y de ratón. Tal patrón de ‘empalme alternativo ancestral’ fue ampliamente adoptado como criterio para eventos de empalme alternativos funcionales (Resch et al., 2004; Sorek et al., 2004a). En estos exones, un 49,2% aún mayor (frente al 22,3% de todos los exones empalmados alternativamente) no pudo pasar la prueba de la relación Ka/Ks (Tabla 1), en consonancia con otro estudio reciente sobre dichos exones (Ohler et al., 2005). Por lo tanto, la hipótesis para las formas de empalme no funcionales tampoco puede explicar nuestros datos. Finalmente, para descartar la influencia potencial de las islas CpG, calculamos la frecuencia de CpG sobre GpC en cada exón, y restringimos nuestro análisis a un subconjunto de exones empalmados alternativamente cuyas relaciones CpG/GpC fueron <0,8 (Iida y Akashi, 2000). De estos exones, el 20,8% no pudo pasar esta prueba, similar al porcentaje para el conjunto total de exones empalmados alternativamente (Tabla 1). Aunque en principio un aumento de la relación Ka/Ks podría reflejar varios mecanismos subyacentes, que no es el foco de este manuscrito, nuestros análisis de control indican que una gran fracción de exones alternativos funcionales en el genoma humano fallan en la prueba de la relación Ka/Ks.
Los exones constitutivos superan en número a los exones empalmados alternativamente en la mayoría de los genes codificadores de proteínas. Dado que en muchos organismos la cobertura de secuencias de transcripción (por ejemplo, ESTs) es todavía bastante baja, la prueba de la relación Ka/Ks es una herramienta poderosa para refinar las predicciones computacionales de la estructura génica. Sin embargo, la mayoría de los genes codificadores de proteínas de los mamíferos están empalmados alternativamente, y un pequeño número de exones empalmados alternativamente podrían tener profundos impactos funcionales y regulatorios, como lo ilustra recientemente el empalmado alternativo del dominio C2A de Piccolo (Garcia et al., 2004) y muchos otros. Nuestro análisis sugiere que en organismos con un empalme alternativo extenso (por ejemplo, mamíferos) es preferible combinar la prueba de la relación Ka/Ks con otras métricas que indiquen la probabilidad de un empalme alternativo. Afortunadamente, la genómica evolutiva también ha arrojado luz sobre los rasgos típicos de los exones empalmes alternativos funcionales , que se han utilizado con éxito en las predicciones (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Esta información se puede integrar con la prueba de la relación Ka/Ks para una evaluación más precisa de los potenciales codificadores de proteínas de las regiones genómicas.
La prueba de relación Ka/Ks en exones constitutivos y, alternativamente, empalmados con diferentes tamaños. (A) Exones constitutivos y (B) exones alternativamente empalmados.
La prueba de relación Ka/Ks en exones constitutivos y, alternativamente, empalmados con diferentes tamaños. (A) Exones constitutivos y (B) exones alternativamente empalmados.
Exones que pase o no la Ka/Ks prueba de razón de
Tipos de exones . | Número total . | Longitud media (pa). | # Fail . | # Pass . | % de error . | Media (mediana) de Ka/Ks . |
---|---|---|---|---|---|---|
Constitutiva | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Mayor forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Tipos de exones . | Número total . | Longitud media (pa). | # Fail . | # Pass . | % de error . | Media (mediana) de Ka/Ks . |
---|---|---|---|---|---|---|
Constitutiva | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Mayor forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medio-forma) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Menores de forma) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestrales Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exones que pase o no la Ka/Ks prueba de razón de
Tipos de exones . | Número total . | Longitud media (pa). | # Fail . | # Pass . | % de error . | Media (mediana) de Ka/Ks . |
---|---|---|---|---|---|---|
Constitutiva | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Mayor forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Tipos de exones . | Número total . | Longitud media (pa). | # Fail . | # Pass . | % de error . | Media (mediana) de Ka/Ks . |
---|---|---|---|---|---|---|
Constitutiva | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Mayor forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medio-forma) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Menores de forma) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestrales Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exones humanos arnm que pase o no la Ka/Ks prueba de razón de
Tipos de exones . | Número total . | # Fail . | # Pass . | % de error . |
---|---|---|---|---|
Constitutiva | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Mayor forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-forma) | 170 | 39 | 131 | 22.9 |
Alt (Menores de forma) | 23 | 20 | 3 | 87.0 |
Tipos de exones . | Número total . | # Fail . | # Pass . | % de error . |
---|---|---|---|---|
Constitutiva | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Mayor forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-forma) | 170 | 39 | 131 | 22.9 |
Alt (Menores de forma) | 23 | 20 | 3 | 87.0 |
Exones humanos arnm que pase o no la Ka/Ks prueba de razón de
Tipos de exones . | Número total . | # Fail . | # Pass . | % de error . |
---|---|---|---|---|
Constitutiva | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Mayor forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-forma) | 170 | 39 | 131 | 22.9 |
Alt (Menores de forma) | 23 | 20 | 3 | 87.0 |
Tipos de exones . | Número total . | # Fail . | # Pass . | % de error . |
---|---|---|---|---|
Constitutiva | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Mayor forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-forma) | 170 | 39 | 131 | 22.9 |
Alt (Menores de forma) | 23 | 20 | 3 | 87.0 |
Los autores agradecen a Anton Nekrutenko para la lectura de nuestro manuscrito y por los útiles comentarios. Este trabajo contó con el apoyo de la Beca U54-RR021813 de los NIH, un premio de Profesor Académico a C. J. L. de la Fundación Dreyfus, una beca DOE DE-FC02-02ER63421. Y. X. cuenta con el apoyo de una beca de tesis doctoral de UCLA.
Conflicto de intereses: no declarado.
Boue, S., et al.
Empalme y evolución alternativos.
-1034
Filip, L. C. and Mundy, N. I.
Evolución rápida por selección darwiniana positiva en el dominio extracelular de la abundante proteína linfocitaria CD45 en primates.
-1511
García, J., et al.
Un interruptor conformacional en el dominio Piccolo C2A regulado por empalme alternativo.
-53
Hurst, L. D. y Pal, C.
la Evidencia para la purificación de selección que actúen en silencio sitios en los genes BRCA1.
-65
Iida, K. y Akashi, H.
A test of translational selection at ‘silent’ sites in the human genome: base composition comparisons in alternatively spliced genes.
-105
Johnson, J. M., et al.
Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.
-2144
Kellis, M., et al.
Secuenciación y comparación de especies de levadura para identificar genes y elementos reguladores.
-254
Lareau, L. F., et al.
Las funciones cambiantes del empalme alternativo.
-282
Lewis, B. P., et al.
Evidencia del acoplamiento generalizado del empalme alternativo y la descomposición del ARNm mediada por tonterías en humanos.
-192
Miller, W., et al.
Genómica comparativa.
-56
Modrek, B. y Lee, C.
Un punto de vista genómico de splicing alternativo.
-19
Modrek, B. y Lee, C.
El empalme alternativo en los genomas humano, ratón y rata está asociado con una mayor tasa de creación/pérdida de exones.
-180
Modrek, B., et al.
Análisis de todo el genoma de empalmes alternativos utilizando datos de secuencias expresadas por humanos.
-2859
Nekrutenko, A.
Reconciling the numbers: ESTs versus genes codificadores de proteínas.
-1282
Nekrutenko, A., et al.
La prueba de cociente K(A)/K(S) para evaluar el potencial codificador de proteínas de regiones genómicas: un estudio empírico y de simulación.
-202
Nekrutenko, A., et al.
ETOPE: prueba evolutiva de exones predichos.
-3567
Nekrutenko, A., et al.
Un enfoque evolutivo revela una alta capacidad de codificación de proteínas del genoma humano.
-310
Ohler, U., et al.
Reconocimiento de exones separados alternativamente conservados desconocidos.
Pan, P., et al.
Revelando las características regulatorias globales del empalme alternativo de mamíferos utilizando una plataforma de microarrays cuantitativos.
-941
Philipps, D. L., et al.
A computational and experimental approach toward a priori identification of alternatively splicited exons.
-1844
Resch, A., et al.
Evidencia de una subpoblación de eventos de empalme alternativos conservados bajo presión de selección para la preservación del marco de lectura de proteínas.
-1269
Sorek, R. y Ast, G.
Secuencias intrónicas que flanquean exones alternativamente empalmados se conservan entre humanos y ratones.
-1637
Sorek, R. y Segura, H. M.
A novel algorithm for computational identification of contaminated EST libraries (en inglés).
-1074
Sorek, R., et al.
Los exones que contienen aluminio se empalman alternativamente.
-1067
Sorek, R., et al.
¿Qué tan frecuente es el empalme alternativo funcional en el genoma humano?
-71
Sorek, R., et al.
Método no basado en EST para la predicción de saltos de exones.
-1623
Thompson, J. D., et al.
CLUSTAL W: mejora de la sensibilidad de la alineación progresiva de secuencias múltiples a través de la ponderación de secuencias, las penalizaciones de separación específicas de la posición y la elección de la matriz de peso.
-4680
Xing, Y. y Lee, C.
La presión de selección negativa contra el truncamiento prematuro de proteínas se reduce mediante empalmes alternativos y diploidía.
-475
Yang, Z.
PAML: un paquete de programa para el análisis filogenético por máxima verosimilitud.
-556
Yeo, G. W., et al.
Identificación y análisis de eventos de empalme alternativos conservados en humanos y ratones.
-2855
Zhang, Z. y Gerstein, M.
análisis a Gran escala de pseudogenes en el genoma humano.
–335