Abstract
Sommario: Recentemente, il Ka/Ks rapporto di test, che valuta la proteina-codifica potenzialità di regioni genomiche base della loro non-sinonimo di sinonimo divergenza dei tassi, è stato proposto e utilizzato con successo nel genoma annotazioni degli eucarioti. Abbiamo eseguito sistematicamente il test del rapporto Ka / Ks su 925 esoni transcript-confirmed alternatively spliced nel genoma umano, che descriviamo in questo manoscritto. Abbiamo scoperto che il 22,3% degli esoni evolutivamente conservati in alternativa non può superare il test del rapporto Ka/Ks, rispetto al 9,8% per gli esoni costitutivi. Il tasso di falsi negativi è stato il più alto (85,7%) per gli esoni con basse frequenze di inclusione della trascrizione. Le analisi degli esoni impiombati alternativamente supportate da sequenze di mRNA a lunghezza intera hanno prodotto risultati simili e quasi la metà degli esoni coinvolti in eventi di splicing alternativi ancestrali non ha potuto superare questo test. La nostra analisi suggerisce una direzione futura per incorporare previsioni di splicing alternative basate sulla genomica comparativa con il test del rapporto Ka / Ks in eucarioti più alti con splicing alternativo a RNA esteso.
Contact:[email protected]
1 INTRODUZIONE
La genomica comparativa ha fornito potenti strumenti per le annotazioni di genomi eucariotici (Kellis et al., 2003). In uno studio pionieristico, Nekrutenko et al. (2002) ha proposto il “test del rapporto Ka/Ks” per valutare i potenziali codificanti proteine degli esoni previsti. Questo test si basa sul presupposto che la maggior parte delle regioni codificanti proteine nel genoma umano sono sotto forte selezione purificante durante l’evoluzione. Di conseguenza, i loro tassi di divergenza sinonimo (Ks) superano notevolmente i tassi di divergenza non sinonimo (Ka), producendo rapporti Ka/Ks di molto meno di uno nei confronti delle sequenze ortologhe uomo-topo. Su un campione di 1244 esoni da 153 geni codificanti proteine, il test del rapporto Ka / Ks ha dato un tasso di falsi negativi dell ‘ 8% e un tasso di falsi positivi <5% per gli esoni interni, una precisione che era migliore della maggior parte degli strumenti di previsione del gene (Nekrutenko et al., 2002). Fin dalla sua introduzione, il test del rapporto Ka/Ks è stato ampiamente e con successo utilizzato per migliorare le annotazioni di genomi umani e di altri mammiferi (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang e Gerstein, 2004).
Una domanda emergente sul test del rapporto Ka/Ks si riferisce agli esoni impiombati alternativamente nei genomi eucariotici. Recenti studi di sequenze espresse e dati di microarray hanno dimostrato che lo splicing alternativo è un meccanismo diffuso di regolazione genica negli eucarioti superiori (Lareau et al., 2004; Modrek e Lee, 2002). Fino a tre quarti dei geni codificanti umani sono sottoposti a splicing alternativo (Johnson et al., 2003). Ci sono abbondanti prove che suggeriscono che lo splicing alternativo è associato a rilassamenti della pressione di selezione durante l’evoluzione (Boue et al., 2003). Ad esempio, si osserva che lo splicing alternativo è associato a un tasso accelerato di creazione e perdita di esoni (Modrek e Lee, 2003), nuove origini di esoni da elementi Alu (Sorek et al., 2002), tolleranza dei codoni di terminazione prematura (Lewis et al., 2003; Xing e Lee, 2004), e così via. Iida e Akashi (2000) hanno studiato i modelli di divergenza di sequenza di 110 geni che codificano proteine in alternativa da umani e Drosophila e hanno scoperto che le regioni in alternativa di questi geni avevano valori Ka/Ks più alti rispetto alle regioni costitutive. Sono stati riportati anche altri esempi di Ka/K elevati in esoni impiombati alternativamente (Filip e Mundy, 2004; Hurst e Pal, 2001). Queste osservazioni sollevano una domanda riguardante la divergenza dal test del rapporto Ka/Ks tra esoni alternativamente giuntati.
2 METODI
Abbiamo identificato in alternativa esoni giuntati allineando sequenze espresse umane al genoma umano (Modrek et al., 2001). Per quantificare il grado di splicing alternativo per ogni esone impiombato in alternativa, abbiamo usato una metrica standard di splicing alternativo—il livello di inclusione degli esoni, definito come il numero di ESONI che includeva un esone diviso per il numero totale di ESONI che includevano o saltavano questo esone. Abbiamo suddiviso gli esoni impiombati alternativamente in tre classi in base ai loro livelli di inclusione: forma maggiore (>2/3), forma media (tra 1/3 e 2/3) e forma minore (<1/3).
Abbiamo identificato la sequenza di esoni ortologhi per ogni esone umano nella sequenza genomica dell’ortologo del topo, come descritto in precedenza (Modrek e Lee, 2003). Per ogni coppia di sequenze di esoni ortologhi uomo–topo, abbiamo eseguito il test del rapporto Ka / Ks seguendo il protocollo di Nekrutenko et al. (2003a). In breve, sequenze di esoni ortologhi da umani e topi sono stati tradotti e poi allineati usando CLUSTALW Thompson et al., 1994 sotto parametri predefiniti. Questo allineamento della proteina è stato usato per seminare un allineamento delle sequenze nucleotidiche corrispondenti e le lacune nell’allineamento sono state tagliate. Abbiamo stimato il numero di sostituzioni/siti sinonimi e non sinonimi utilizzando le stime Yang-Nielsen del programma yn00 del pacchetto PAML (PAML 3.14) (Yang, 1997). Abbiamo costruito una tabella di contingenza 2 × 2 utilizzando il numero di siti sinonimi/non sinonimi modificati e invariati e testato se il rapporto Ka/Ks era significativamente <1 utilizzando il test esatto di Fisher. Abbiamo definito un esone come il superamento del test del rapporto Ka / Ks se il suo Ka/Ks era significativamente <1 al livello P < 0.05.
3 RISULTATI E DISCUSSIONE
Abbiamo compilato un elenco di 925 esoni umani alternativamente impiombati che sono stati conservati tra genomi umani e topi, sulla base di analisi di sequenze espresse umane (Modrek et al., 2001). Abbiamo anche compilato una lista di 10 996 esoni costitutivi umani come controllo. Tutti questi esoni erano esoni interni affiancati da introni ad entrambe le estremità. Abbiamo eseguito i test del rapporto Ka / Ks su questi esoni seguendo il protocollo di (Nekrutenko et al., 2003a) (vedi sezione Metodi). Degli esoni costitutivi 9.l ‘ 8% non è riuscito a superare il test del rapporto Ka/Ks, un rapporto simile a quello riportato dallo studio iniziale (8%) (Nekrutenko et al., 2002) (Tabella 1). Al contrario, il 22,3% degli esoni impiombati in alternativa testati non ha superato il test del rapporto Ka/Ks, con un aumento di oltre 2 volte rispetto agli esoni costitutivi. Perché in alternativa gli esoni impiombati con diversi livelli di inclusione degli esoni (vedi definizioni nella sezione Metodi) esibivano diversi modelli di divergenza evolutiva (Modrek e Lee, 2003; Pan et al., 2004, abbiamo diviso i 925 esoni alternativamente impiombati in tre classi in base ai loro livelli di inclusione degli esoni (vedi sezione Metodi). La frazione di esoni che ha fallito il test è stata del 16,0% per gli esoni di forma maggiore e aumentata all ‘ 85,7% per gli esoni alternativi di forma minore (inclusi <1/3 nelle trascrizioni). Dal momento che in alternativa esoni giuntati erano più brevi in media, abbiamo anche suddiviso esoni in base alle loro dimensioni (Fig. 1). In entrambi gli esoni costitutivi e in alternativa giuntati, le frazioni che fallivano il test erano più alte per esoni più brevi, coerenti con lo studio originale Nekrutenko et al., 2002. Tuttavia, la frazione era costantemente più alta negli esoni impiombati in alternativa dopo aver controllato le dimensioni degli esoni (ad esempio 5,4% per gli esoni costitutivi e 16,6% per gli esoni impiombati in alternativa tra 101 e 150 nt; Fig. 1). Analisi di esoni di topo in alternativa giuntati in un confronto topo-uomo hanno prodotto risultati simili (dati non mostrati).
Il nostro risultato indica che una frazione significativamente più alta di esoni alternativamente giuntati nel genoma umano non può superare il test del rapporto Ka/Ks. Tuttavia, ciò non si traduce immediatamente in un aumento del tasso di falsi negativi del test del rapporto Ka/Ks in esoni impiombati alternativamente, poiché sono possibili altre interpretazioni. Questi dati implicano effettivamente che un numero considerevole di esoni splicati alternativamente osservati nelle sequenze EST umane non rappresentano esoni reali, ma provengono effettivamente da artefatti nei dati EST (ad esempio rari errori spliceosomiali) (Modrek e Lee, 2002; Sorek e Safer, 2003)? Questa spiegazione sembra particolarmente plausibile per esoni di forma minore (che sono osservati in una piccola frazione di sequenze EST). Per testare questa possibilità, abbiamo analizzato un sottoinsieme di esoni impiombati alternativamente supportati da sequenze mRNA a lunghezza intera. Abbiamo osservato frazioni simili di esoni impiombati alternativamente che non hanno superato il test del rapporto Ka / Ks (Tabella 2). Pertanto, gli esoni spuri originati da artefatti EST non possono spiegare i nostri dati. Gli esoni impiombati in alternativa che falliscono il test del rapporto Ka / Ks rappresentano in gran parte forme di giunzione non funzionali? Per rispondere a questa domanda, abbiamo limitato la nostra analisi a un insieme di esoni 120 che sono stati alternativamente giuntati in trascrittomi umani e di topo. Tale modello di “splicing alternativo ancestrale” è stato ampiamente adottato come criterio per gli eventi di splicing alternativo funzionale (Resch et al., 2004; Sorek et al., 2004a). In questi esoni un 49,2% ancora più elevato (rispetto al 22,3% di tutti gli esoni in giunzione alternativa) non ha potuto superare il test del rapporto Ka/Ks (Tabella 1), coerentemente con un altro recente studio su tali esoni (Ohler et al., 2005). Di conseguenza l’ipotesi per le forme non funzionali della giuntura non può spiegare i nostri dati neanche. Infine, per escludere la potenziale influenza delle isole CpG, abbiamo calcolato la frequenza di CpG su GpC in ciascun esone e abbiamo limitato la nostra analisi a un sottoinsieme di esoni impiombati alternativamente i cui rapporti CpG/GpC erano <0.8 (Iida e Akashi, 2000). Di questi esoni il 20,8% non è riuscito a superare questo test, in modo simile alla percentuale per l’insieme totale di esoni impiombati alternativamente (Tabella 1). Sebbene in linea di principio un aumento del rapporto Ka/Ks possa riflettere vari meccanismi sottostanti , che non sono al centro di questo manoscritto, le nostre analisi di controllo indicano che una grande frazione di esoni alternativi funzionali nel genoma umano fallisce il test del rapporto Ka/Ks.
Gli esoni costitutivi sono più numerosi degli esoni impiombati alternativamente nella maggior parte dei geni codificanti proteine. Poiché in molti organismi la copertura della sequenza di trascrizione (es. ESTs) è ancora piuttosto bassa, il test del rapporto Ka/Ks è un potente strumento per affinare le previsioni computazionali della struttura genica. Tuttavia, la maggior parte dei geni codificanti proteine dei mammiferi sono alternativamente giuntati, e un piccolo numero di esoni alternativamente giuntati potrebbe avere profondi impatti funzionali e normativi, come recentemente illustrato dallo splicing alternativo del dominio C2A di Piccolo (Garcia et al., 2004) e molti altri. La nostra analisi suggerisce che negli organismi con splicing alternativo esteso (ad esempio mammiferi) è preferibile combinare il test del rapporto Ka/Ks con altre metriche che indicano la probabilità di splicing alternativo. Fortunatamente la genomica evolutiva ha anche fatto luce sui tratti tipici degli esoni funzionali alternativamente impiombati, che sono stati utilizzati con successo nelle previsioni (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Tali informazioni possono essere integrate con il test del rapporto Ka / Ks per una valutazione più accurata dei potenziali codificanti proteine delle regioni genomiche.
Il test del rapporto Ka / Ks su esoni costitutivi e in alternativa giuntati di diverse dimensioni. A) Esoni costitutivi e B) esoni accoppiati alternativamente.
Il test del rapporto Ka / Ks su esoni costitutivi e in alternativa giuntati di diverse dimensioni. A) Esoni costitutivi e B) esoni accoppiati alternativamente.
Esoni che superano o non superano il test del rapporto Ka / Ks
Tipi di esoni . | Totale # . | Lunghezza media (bp). | # Fail . | # Passaggio . | % non riuscito . | Media (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
Costitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Tipi di esoni . | Totale # . | Lunghezza media (bp). | # Fail . | # Passaggio . | % non riuscito . | Media (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
Costitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medio-modulo) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minori-forma) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestrale Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Esoni che passano la Ka/Ks test del rapporto di
Tipi di esoni . | Totale # . | Lunghezza media (bp). | # Fail . | # Passaggio . | % non riuscito . | Media (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
Costitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Tipi di esoni . | Totale # . | Lunghezza media (bp). | # Fail . | # Passaggio . | % non riuscito . | Media (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
Costitutivo | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternativa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medio-modulo) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minori-forma) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestrale Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Esoni supportato da uomo mrna che passano la Ka/Ks test del rapporto di
Tipi di esoni . | Totale # . | # Fail . | # Passaggio . | % non riuscito . |
---|---|---|---|---|
Costitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-modulo) | 170 | 39 | 131 | 22.9 |
Alt (Forma minore) | 23 | 20 | 3 | 87.0 |
Tipi di esoni . | Totale # . | # Fail . | # Passaggio . | % non riuscito . |
---|---|---|---|---|
Costitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-modulo) | 170 | 39 | 131 | 22.9 |
Alt (Minori-forma) | 23 | 20 | 3 | 87.0 |
Esoni supportato da uomo mrna che passano la Ka/Ks test del rapporto di
Tipi di esoni . | Totale # . | # Fail . | # Passaggio . | % non riuscito . |
---|---|---|---|---|
Costitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-modulo) | 170 | 39 | 131 | 22.9 |
Alt (Forma minore) | 23 | 20 | 3 | 87.0 |
Tipi di esoni . | Totale # . | # Fail . | # Passaggio . | % non riuscito . |
---|---|---|---|---|
Costitutivo | 10 524 | 1017 | 9507 | 9.7 |
Alternativa | 811 | 158 | 653 | 19.5 |
Alt (Major-forma) | 618 | 99 | 519 | 16.0 |
Alt (Medio-modulo) | 170 | 39 | 131 | 22.9 |
Alt (Minori-forma) | 23 | 20 | 3 | 87.0 |
Gli autori ringraziano Anton Nekrutenko per la lettura del nostro manoscritto e per gli utili commenti. Questo lavoro è stato sostenuto da NIH Grant U54-RR021813, un premio insegnante-studioso a CJL. dalla Fondazione Dreyfus, una sovvenzione DOE DE-FC02-02ER63421. Y. X. è supportato da un dottorato di ricerca tesi fellowship da UCLA.
Conflitto di interessi: nessuno dichiarato.
Boue, S., et al.
Splicing alternativo ed evoluzione.
-1034
Filip, L. C. e Mundy, N. I.
Rapida evoluzione in positivo la selezione Darwiniana nel dominio extracellulare dell’abbondanza e dei linfociti proteina CD45 nei primati.
-1511
Garcia, J., et al.
Un interruttore conformazionale nel dominio Piccolo C2A regolato da splicing alternativo.
-53
Hurst, L. D. e Pal, C.
Prove per la selezione purificante che agisce su siti silenziosi in BRCA1.
-65
Iida, K. e Akashi, H.
Un test di selezione traslazionale in siti ‘silenziosi’ nel genoma umano: confronti di composizione di base in geni in alternativa giuntati.
-105
Il suo nome deriva da
Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.
-2144
Kellis, M., et al.
Sequenziamento e confronto di specie di lieviti per identificare geni ed elementi regolatori.
-254
Lareau, L. F., et al.
L’evoluzione dei ruoli di splicing alternativo.
-282
Lewis, B. P., et al.
Prove per l’accoppiamento diffuso di splicing alternativo e decadimento mRNA mediato da sciocchezze negli esseri umani.
-192
Mugnaio, W., et al.
Genomica comparativa.
-56
Il suo nome deriva dal latino.
Una vista genomica di splicing alternativo.
-19
Il suo nome deriva dal latino.
Lo splicing alternativo nei genomi umani, del topo e del ratto è associato ad un aumento del tasso di creazione/perdita di esoni.
-180
Modrek, B., et al.
Analisi genome-wide di splicing alternativo utilizzando dati di sequenza umani espressi.
-2859
Nekrutenko, A.
Conciliare i numeri: EST contro geni codificanti proteine.
-1282
Nekrutenko, A., et al.
Il test del rapporto K(A)/K(S) per valutare il potenziale di codifica delle proteine delle regioni genomiche: uno studio empirico e di simulazione.
-202
Nekrutenko, A., et al.
ETOPE: test evolutivo degli esoni predetti.
-3567
Nekrutenko, A., et al.
Un approccio evolutivo rivela un’elevata capacità di codifica delle proteine del genoma umano.
-310
E ‘ una delle più importanti.
Riconoscimento di esoni conservati alternativamente impiombati sconosciuti.
Pan, Q., et al.
Rivelare le caratteristiche normative globali dello splicing alternativo dei mammiferi utilizzando una piattaforma microarray quantitativa.
-941
Il suo nome deriva dal latino.
Un approccio computazionale e sperimentale verso l’identificazione a priori di esoni impiombati alternativamente.
-1844
Resch, A., et al.
Evidenza di una sottopopolazione di eventi di splicing alternativi conservati sotto pressione di selezione per la conservazione del frame di lettura delle proteine.
-1269
Sorek, R. e Ast, G.
Sequenze introniche che fiancheggiano esoni alternativamente giuntati sono conservati tra umano e topo.
-1637
Sorek, R. e Safer, H. M.
Un nuovo algoritmo per l’identificazione computazionale di librerie EST contaminate.
-1074
Sorek, R., et al.
Gli esoni contenenti Alu sono alternativamente impiombati.
-1067
Sorek, R., et al.
Quanto è prevalente lo splicing alternativo funzionale nel genoma umano?
-71
Sorek, R., et al.
Un metodo non-EST-based per la previsione exon-skipping.
-1623
Il suo nome deriva da
CLUSTAL W: migliorare la sensibilità dell’allineamento progressivo di sequenze multiple attraverso la ponderazione della sequenza, le penalità di gap specifiche per la posizione e la scelta della matrice di peso.
-4680
Xing, Y. e Lee, C.
La pressione di selezione negativa contro il troncamento prematuro della proteina è ridotta sia dallo splicing alternativo che dalla diploidia.
-475
Yang, Z.
PAML: un pacchetto di programmi per l’analisi filogenetica di massima verosimiglianza.
-556
Yeo, GW, et al.
Identificazione e analisi di eventi di splicing alternativi conservati nell’uomo e nel topo.
-2855
Zhang, Z. e Gerstein, M.
Analisi su larga scala di pseudogeni nel genoma umano.
–335