Valutare l’applicazione del Ka/Ks test del rapporto di impiombato esoni

Abstract

Sommario: Recentemente, il Ka/Ks rapporto di test, che valuta la proteina-codifica potenzialità di regioni genomiche base della loro non-sinonimo di sinonimo divergenza dei tassi, è stato proposto e utilizzato con successo nel genoma annotazioni degli eucarioti. Abbiamo eseguito sistematicamente il test del rapporto Ka / Ks su 925 esoni transcript-confirmed alternatively spliced nel genoma umano, che descriviamo in questo manoscritto. Abbiamo scoperto che il 22,3% degli esoni evolutivamente conservati in alternativa non può superare il test del rapporto Ka/Ks, rispetto al 9,8% per gli esoni costitutivi. Il tasso di falsi negativi è stato il più alto (85,7%) per gli esoni con basse frequenze di inclusione della trascrizione. Le analisi degli esoni impiombati alternativamente supportate da sequenze di mRNA a lunghezza intera hanno prodotto risultati simili e quasi la metà degli esoni coinvolti in eventi di splicing alternativi ancestrali non ha potuto superare questo test. La nostra analisi suggerisce una direzione futura per incorporare previsioni di splicing alternative basate sulla genomica comparativa con il test del rapporto Ka / Ks in eucarioti più alti con splicing alternativo a RNA esteso.

Contact:[email protected]

1 INTRODUZIONE

La genomica comparativa ha fornito potenti strumenti per le annotazioni di genomi eucariotici (Kellis et al., 2003). In uno studio pionieristico, Nekrutenko et al. (2002) ha proposto il “test del rapporto Ka/Ks” per valutare i potenziali codificanti proteine degli esoni previsti. Questo test si basa sul presupposto che la maggior parte delle regioni codificanti proteine nel genoma umano sono sotto forte selezione purificante durante l’evoluzione. Di conseguenza, i loro tassi di divergenza sinonimo (Ks) superano notevolmente i tassi di divergenza non sinonimo (Ka), producendo rapporti Ka/Ks di molto meno di uno nei confronti delle sequenze ortologhe uomo-topo. Su un campione di 1244 esoni da 153 geni codificanti proteine, il test del rapporto Ka / Ks ha dato un tasso di falsi negativi dell ‘ 8% e un tasso di falsi positivi <5% per gli esoni interni, una precisione che era migliore della maggior parte degli strumenti di previsione del gene (Nekrutenko et al., 2002). Fin dalla sua introduzione, il test del rapporto Ka/Ks è stato ampiamente e con successo utilizzato per migliorare le annotazioni di genomi umani e di altri mammiferi (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang e Gerstein, 2004).

Una domanda emergente sul test del rapporto Ka/Ks si riferisce agli esoni impiombati alternativamente nei genomi eucariotici. Recenti studi di sequenze espresse e dati di microarray hanno dimostrato che lo splicing alternativo è un meccanismo diffuso di regolazione genica negli eucarioti superiori (Lareau et al., 2004; Modrek e Lee, 2002). Fino a tre quarti dei geni codificanti umani sono sottoposti a splicing alternativo (Johnson et al., 2003). Ci sono abbondanti prove che suggeriscono che lo splicing alternativo è associato a rilassamenti della pressione di selezione durante l’evoluzione (Boue et al., 2003). Ad esempio, si osserva che lo splicing alternativo è associato a un tasso accelerato di creazione e perdita di esoni (Modrek e Lee, 2003), nuove origini di esoni da elementi Alu (Sorek et al., 2002), tolleranza dei codoni di terminazione prematura (Lewis et al., 2003; Xing e Lee, 2004), e così via. Iida e Akashi (2000) hanno studiato i modelli di divergenza di sequenza di 110 geni che codificano proteine in alternativa da umani e Drosophila e hanno scoperto che le regioni in alternativa di questi geni avevano valori Ka/Ks più alti rispetto alle regioni costitutive. Sono stati riportati anche altri esempi di Ka/K elevati in esoni impiombati alternativamente (Filip e Mundy, 2004; Hurst e Pal, 2001). Queste osservazioni sollevano una domanda riguardante la divergenza dal test del rapporto Ka/Ks tra esoni alternativamente giuntati.

2 METODI

Abbiamo identificato in alternativa esoni giuntati allineando sequenze espresse umane al genoma umano (Modrek et al., 2001). Per quantificare il grado di splicing alternativo per ogni esone impiombato in alternativa, abbiamo usato una metrica standard di splicing alternativo—il livello di inclusione degli esoni, definito come il numero di ESONI che includeva un esone diviso per il numero totale di ESONI che includevano o saltavano questo esone. Abbiamo suddiviso gli esoni impiombati alternativamente in tre classi in base ai loro livelli di inclusione: forma maggiore (>2/3), forma media (tra 1/3 e 2/3) e forma minore (<1/3).

Abbiamo identificato la sequenza di esoni ortologhi per ogni esone umano nella sequenza genomica dell’ortologo del topo, come descritto in precedenza (Modrek e Lee, 2003). Per ogni coppia di sequenze di esoni ortologhi uomo–topo, abbiamo eseguito il test del rapporto Ka / Ks seguendo il protocollo di Nekrutenko et al. (2003a). In breve, sequenze di esoni ortologhi da umani e topi sono stati tradotti e poi allineati usando CLUSTALW Thompson et al., 1994 sotto parametri predefiniti. Questo allineamento della proteina è stato usato per seminare un allineamento delle sequenze nucleotidiche corrispondenti e le lacune nell’allineamento sono state tagliate. Abbiamo stimato il numero di sostituzioni/siti sinonimi e non sinonimi utilizzando le stime Yang-Nielsen del programma yn00 del pacchetto PAML (PAML 3.14) (Yang, 1997). Abbiamo costruito una tabella di contingenza 2 × 2 utilizzando il numero di siti sinonimi/non sinonimi modificati e invariati e testato se il rapporto Ka/Ks era significativamente <1 utilizzando il test esatto di Fisher. Abbiamo definito un esone come il superamento del test del rapporto Ka / Ks se il suo Ka/Ks era significativamente <1 al livello P < 0.05.

3 RISULTATI E DISCUSSIONE

Abbiamo compilato un elenco di 925 esoni umani alternativamente impiombati che sono stati conservati tra genomi umani e topi, sulla base di analisi di sequenze espresse umane (Modrek et al., 2001). Abbiamo anche compilato una lista di 10 996 esoni costitutivi umani come controllo. Tutti questi esoni erano esoni interni affiancati da introni ad entrambe le estremità. Abbiamo eseguito i test del rapporto Ka / Ks su questi esoni seguendo il protocollo di (Nekrutenko et al., 2003a) (vedi sezione Metodi). Degli esoni costitutivi 9.l ‘ 8% non è riuscito a superare il test del rapporto Ka/Ks, un rapporto simile a quello riportato dallo studio iniziale (8%) (Nekrutenko et al., 2002) (Tabella 1). Al contrario, il 22,3% degli esoni impiombati in alternativa testati non ha superato il test del rapporto Ka/Ks, con un aumento di oltre 2 volte rispetto agli esoni costitutivi. Perché in alternativa gli esoni impiombati con diversi livelli di inclusione degli esoni (vedi definizioni nella sezione Metodi) esibivano diversi modelli di divergenza evolutiva (Modrek e Lee, 2003; Pan et al., 2004, abbiamo diviso i 925 esoni alternativamente impiombati in tre classi in base ai loro livelli di inclusione degli esoni (vedi sezione Metodi). La frazione di esoni che ha fallito il test è stata del 16,0% per gli esoni di forma maggiore e aumentata all ‘ 85,7% per gli esoni alternativi di forma minore (inclusi <1/3 nelle trascrizioni). Dal momento che in alternativa esoni giuntati erano più brevi in media, abbiamo anche suddiviso esoni in base alle loro dimensioni (Fig. 1). In entrambi gli esoni costitutivi e in alternativa giuntati, le frazioni che fallivano il test erano più alte per esoni più brevi, coerenti con lo studio originale Nekrutenko et al., 2002. Tuttavia, la frazione era costantemente più alta negli esoni impiombati in alternativa dopo aver controllato le dimensioni degli esoni (ad esempio 5,4% per gli esoni costitutivi e 16,6% per gli esoni impiombati in alternativa tra 101 e 150 nt; Fig. 1). Analisi di esoni di topo in alternativa giuntati in un confronto topo-uomo hanno prodotto risultati simili (dati non mostrati).

Il nostro risultato indica che una frazione significativamente più alta di esoni alternativamente giuntati nel genoma umano non può superare il test del rapporto Ka/Ks. Tuttavia, ciò non si traduce immediatamente in un aumento del tasso di falsi negativi del test del rapporto Ka/Ks in esoni impiombati alternativamente, poiché sono possibili altre interpretazioni. Questi dati implicano effettivamente che un numero considerevole di esoni splicati alternativamente osservati nelle sequenze EST umane non rappresentano esoni reali, ma provengono effettivamente da artefatti nei dati EST (ad esempio rari errori spliceosomiali) (Modrek e Lee, 2002; Sorek e Safer, 2003)? Questa spiegazione sembra particolarmente plausibile per esoni di forma minore (che sono osservati in una piccola frazione di sequenze EST). Per testare questa possibilità, abbiamo analizzato un sottoinsieme di esoni impiombati alternativamente supportati da sequenze mRNA a lunghezza intera. Abbiamo osservato frazioni simili di esoni impiombati alternativamente che non hanno superato il test del rapporto Ka / Ks (Tabella 2). Pertanto, gli esoni spuri originati da artefatti EST non possono spiegare i nostri dati. Gli esoni impiombati in alternativa che falliscono il test del rapporto Ka / Ks rappresentano in gran parte forme di giunzione non funzionali? Per rispondere a questa domanda, abbiamo limitato la nostra analisi a un insieme di esoni 120 che sono stati alternativamente giuntati in trascrittomi umani e di topo. Tale modello di “splicing alternativo ancestrale” è stato ampiamente adottato come criterio per gli eventi di splicing alternativo funzionale (Resch et al., 2004; Sorek et al., 2004a). In questi esoni un 49,2% ancora più elevato (rispetto al 22,3% di tutti gli esoni in giunzione alternativa) non ha potuto superare il test del rapporto Ka/Ks (Tabella 1), coerentemente con un altro recente studio su tali esoni (Ohler et al., 2005). Di conseguenza l’ipotesi per le forme non funzionali della giuntura non può spiegare i nostri dati neanche. Infine, per escludere la potenziale influenza delle isole CpG, abbiamo calcolato la frequenza di CpG su GpC in ciascun esone e abbiamo limitato la nostra analisi a un sottoinsieme di esoni impiombati alternativamente i cui rapporti CpG/GpC erano <0.8 (Iida e Akashi, 2000). Di questi esoni il 20,8% non è riuscito a superare questo test, in modo simile alla percentuale per l’insieme totale di esoni impiombati alternativamente (Tabella 1). Sebbene in linea di principio un aumento del rapporto Ka/Ks possa riflettere vari meccanismi sottostanti , che non sono al centro di questo manoscritto, le nostre analisi di controllo indicano che una grande frazione di esoni alternativi funzionali nel genoma umano fallisce il test del rapporto Ka/Ks.

Gli esoni costitutivi sono più numerosi degli esoni impiombati alternativamente nella maggior parte dei geni codificanti proteine. Poiché in molti organismi la copertura della sequenza di trascrizione (es. ESTs) è ancora piuttosto bassa, il test del rapporto Ka/Ks è un potente strumento per affinare le previsioni computazionali della struttura genica. Tuttavia, la maggior parte dei geni codificanti proteine dei mammiferi sono alternativamente giuntati, e un piccolo numero di esoni alternativamente giuntati potrebbe avere profondi impatti funzionali e normativi, come recentemente illustrato dallo splicing alternativo del dominio C2A di Piccolo (Garcia et al., 2004) e molti altri. La nostra analisi suggerisce che negli organismi con splicing alternativo esteso (ad esempio mammiferi) è preferibile combinare il test del rapporto Ka/Ks con altre metriche che indicano la probabilità di splicing alternativo. Fortunatamente la genomica evolutiva ha anche fatto luce sui tratti tipici degli esoni funzionali alternativamente impiombati, che sono stati utilizzati con successo nelle previsioni (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Tali informazioni possono essere integrate con il test del rapporto Ka / Ks per una valutazione più accurata dei potenziali codificanti proteine delle regioni genomiche.

Fig. 1

Il test del rapporto Ka / Ks su esoni costitutivi e in alternativa giuntati di diverse dimensioni. A) Esoni costitutivi e B) esoni accoppiati alternativamente.

Fig. 1

Il test del rapporto Ka / Ks su esoni costitutivi e in alternativa giuntati di diverse dimensioni. A) Esoni costitutivi e B) esoni accoppiati alternativamente.

Tabella 1

Esoni che superano o non superano il test del rapporto Ka / Ks

Tipi di esoni . Totale # . Lunghezza media (bp). # Fail . # Passaggio . % non riuscito . Media (mediana) Ka/Ks .
Costitutivo 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tipi di esoni . Totale # . Lunghezza media (bp). # Fail . # Passaggio . % non riuscito . Media (mediana) Ka/Ks .
Costitutivo 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medio-modulo) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minori-forma) 42 81 36 6 85.7 0.649 (0.410)
Ancestrale Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabella 1

Esoni che passano la Ka/Ks test del rapporto di

Tipi di esoni . Totale # . Lunghezza media (bp). # Fail . # Passaggio . % non riuscito . Media (mediana) Ka/Ks .
Costitutivo 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tipi di esoni . Totale # . Lunghezza media (bp). # Fail . # Passaggio . % non riuscito . Media (mediana) Ka/Ks .
Costitutivo 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternativa 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medio-modulo) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minori-forma) 42 81 36 6 85.7 0.649 (0.410)
Ancestrale Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabella 2

Esoni supportato da uomo mrna che passano la Ka/Ks test del rapporto di

Tipi di esoni . Totale # . # Fail . # Passaggio . % non riuscito .
Costitutivo 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Major-forma) 618 99 519 16.0
Alt (Medio-modulo) 170 39 131 22.9
Alt (Forma minore) 23 20 3 87.0
Tipi di esoni . Totale # . # Fail . # Passaggio . % non riuscito .
Costitutivo 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Major-forma) 618 99 519 16.0
Alt (Medio-modulo) 170 39 131 22.9
Alt (Minori-forma) 23 20 3 87.0
Tabella 2

Esoni supportato da uomo mrna che passano la Ka/Ks test del rapporto di

Tipi di esoni . Totale # . # Fail . # Passaggio . % non riuscito .
Costitutivo 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Major-forma) 618 99 519 16.0
Alt (Medio-modulo) 170 39 131 22.9
Alt (Forma minore) 23 20 3 87.0
Tipi di esoni . Totale # . # Fail . # Passaggio . % non riuscito .
Costitutivo 10 524 1017 9507 9.7
Alternativa 811 158 653 19.5
Alt (Major-forma) 618 99 519 16.0
Alt (Medio-modulo) 170 39 131 22.9
Alt (Minori-forma) 23 20 3 87.0

Gli autori ringraziano Anton Nekrutenko per la lettura del nostro manoscritto e per gli utili commenti. Questo lavoro è stato sostenuto da NIH Grant U54-RR021813, un premio insegnante-studioso a CJL. dalla Fondazione Dreyfus, una sovvenzione DOE DE-FC02-02ER63421. Y. X. è supportato da un dottorato di ricerca tesi fellowship da UCLA.

Conflitto di interessi: nessuno dichiarato.

Boue, S., et al.

2003

Splicing alternativo ed evoluzione.

Bioessays
25
1031

-1034

Filip, L. C. e Mundy, N. I.

2004

Rapida evoluzione in positivo la selezione Darwiniana nel dominio extracellulare dell’abbondanza e dei linfociti proteina CD45 nei primati.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J., et al.

2004

Un interruttore conformazionale nel dominio Piccolo C2A regolato da splicing alternativo.

Nat. Struct. Mol. Biol.
11
45

-53

Hurst, L. D. e Pal, C.

2001

Prove per la selezione purificante che agisce su siti silenziosi in BRCA1.

Tendenze Genet.
17
62

-65

Iida, K. e Akashi, H.

2000

Un test di selezione traslazionale in siti ‘silenziosi’ nel genoma umano: confronti di composizione di base in geni in alternativa giuntati.

Gene
261
93

-105

Il suo nome deriva da

2003

Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.

Scienza
302
2141

-2144

Kellis, M., et al.

2003

Sequenziamento e confronto di specie di lieviti per identificare geni ed elementi regolatori.

Natura
423
241

-254

Lareau, L. F., et al.

2004

L’evoluzione dei ruoli di splicing alternativo.

Curr. Opin. Struct. Biol.
14
273

-282

Lewis, B. P., et al.

2003

Prove per l’accoppiamento diffuso di splicing alternativo e decadimento mRNA mediato da sciocchezze negli esseri umani.

Proc. Natl Acad. Sic. Stati Uniti
100
189

-192

Mugnaio, W., et al.

2004

Genomica comparativa.

Anno. Rev. Genomica Ronzio. Genet.
5
15

-56

Il suo nome deriva dal latino.

2002

Una vista genomica di splicing alternativo.

Nat. Genet.
30
13

-19

Il suo nome deriva dal latino.

2003

Lo splicing alternativo nei genomi umani, del topo e del ratto è associato ad un aumento del tasso di creazione/perdita di esoni.

Nat. Genet.
34
177

-180

Modrek, B., et al.

2001

Analisi genome-wide di splicing alternativo utilizzando dati di sequenza umani espressi.

Acidi nucleici Res.
29
2850

-2859

Nekrutenko, A.

2004

Conciliare i numeri: EST contro geni codificanti proteine.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

Il test del rapporto K(A)/K(S) per valutare il potenziale di codifica delle proteine delle regioni genomiche: uno studio empirico e di simulazione.

Genome Res.
12
198

-202

Nekrutenko, A., et al.

2003

ETOPE: test evolutivo degli esoni predetti.

Acidi nucleici Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

Un approccio evolutivo rivela un’elevata capacità di codifica delle proteine del genoma umano.

Tendenze Genet.
19
306

-310

E ‘ una delle più importanti.

2005

Riconoscimento di esoni conservati alternativamente impiombati sconosciuti.

PLoS Comp. Biol.
1
e15

Pan, Q., et al.

2004

Rivelare le caratteristiche normative globali dello splicing alternativo dei mammiferi utilizzando una piattaforma microarray quantitativa.

Mol. Cellula.
16
929

-941

Il suo nome deriva dal latino.

2004

Un approccio computazionale e sperimentale verso l’identificazione a priori di esoni impiombati alternativamente.

RNA
10
1838

-1844

Resch, A., et al.

2004

Evidenza di una sottopopolazione di eventi di splicing alternativi conservati sotto pressione di selezione per la conservazione del frame di lettura delle proteine.

Acidi nucleici Res.
32
1261

-1269

Sorek, R. e Ast, G.

2003

Sequenze introniche che fiancheggiano esoni alternativamente giuntati sono conservati tra umano e topo.

Genome Res.
13
1631

-1637

Sorek, R. e Safer, H. M.

2003

Un nuovo algoritmo per l’identificazione computazionale di librerie EST contaminate.

Acidi nucleici Res.
31
1067

-1074

Sorek, R., et al.

2002

Gli esoni contenenti Alu sono alternativamente impiombati.

Genome Res.
12
1060

-1067

Sorek, R., et al.

2004

Quanto è prevalente lo splicing alternativo funzionale nel genoma umano?

Tendenze Genet
20
68

-71

Sorek, R., et al.

2004

Un metodo non-EST-based per la previsione exon-skipping.

Genome Res.
14
1617

-1623

Il suo nome deriva da

1994

CLUSTAL W: migliorare la sensibilità dell’allineamento progressivo di sequenze multiple attraverso la ponderazione della sequenza, le penalità di gap specifiche per la posizione e la scelta della matrice di peso.

Acidi nucleici Res.
22
4673

-4680

Xing, Y. e Lee, C.

2004

La pressione di selezione negativa contro il troncamento prematuro della proteina è ridotta sia dallo splicing alternativo che dalla diploidia.

Tendenze Genet.
20
472

-475

Yang, Z.

1997

PAML: un pacchetto di programmi per l’analisi filogenetica di massima verosimiglianza.

Calcolo. Appl. Biosci.
13
555

-556

Yeo, GW, et al.

2005

Identificazione e analisi di eventi di splicing alternativi conservati nell’uomo e nel topo.

Proc. Natl Acad. Sic. Stati Uniti
102
2850

-2855

Zhang, Z. e Gerstein, M.

2004

Analisi su larga scala di pseudogeni nel genoma umano.

Curr. Opin. Genet. Dev.
14
328

–335

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.