abstrakt
resume: for nylig er ka / Ks ratio test, som vurderer proteinkodende potentialer i genomiske regioner baseret på deres ikke-synonyme til synonyme divergenshastigheder, blevet foreslået og med succes anvendt i genomanmærkninger af eukaryoter. Vi udførte systematisk ka / Ks ratio testen på 925 transkript-bekræftede alternativt splejsede eksoner i det menneskelige genom, som vi beskriver i dette manuskript. Vi fandt ud af, at 22,3% af evolutionært konserverede alternativt splejsede eksoner ikke kan bestå ka/Ks-forholdstesten sammenlignet med 9,8% for konstitutive eksoner. Den falske negative sats var den højeste (85,7%) for eksoner med lave frekvenser af transkriptinddragelse. Analyser af alternativt splejsede eksoner understøttet af mRNA-sekvenser i fuld længde gav lignende resultater, og næsten halvdelen af eksoner involveret i forfædres alternative splejsningshændelser kunne ikke bestå denne test. Vores Analyse antyder en fremtidig retning for at inkorporere komparative genomikbaserede alternative splejsningsprognoser med KA/Ks-forholdstesten i højere eukaryoter med omfattende RNA-alternativ splejsning.
Contact:[email protected]
1 Introduktion
sammenlignende genomik har leveret kraftfulde værktøjer til kommentarer til eukaryote genomer (Kellis et al., 2003). I en banebrydende undersøgelse, Nekrutenko et al. (2002) foreslog ‘Ka/Ks ratio test’ for at vurdere de proteinkodende potentialer for forudsagte eksoner. Denne test er baseret på antagelsen om, at størstedelen af proteinkodende regioner i det humane genom er under stærk rensende selektion under evolution. Som et resultat overstiger deres satser for synonymt divergens (Ks) i høj grad satserne for ikke-synonymt divergens (Ka), hvilket giver ka/Ks–forhold på meget mindre end en i ortologe sekvenssammenligninger mellem mennesker og mus. På en prøve på 1244 eksoner fra 153 proteinkodende gener gav ka/Ks-forholdstesten en 8% falsk negativ hastighed og en <5% falsk positiv hastighed for interne eksoner, en nøjagtighed, der var bedre end de fleste af genforudsigelsesværktøjerne (Nekrutenko et al., 2002). Siden introduktionen er ka / Ks-forholdstesten blevet anvendt bredt og med succes til forbedring af annotationerne af humane og andre pattedyrsgenomer (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Jang og Gerstein, 2004).
et nyt spørgsmål om ka/Ks-forholdstesten vedrører alternativt splejsede eksoner i de eukaryote genomer. Nylige undersøgelser af udtrykte sekvenser og mikroarray-data har vist, at alternativ splejsning er en udbredt mekanisme til genregulering i højere eukaryoter (Lareau et al., 2004; Modrek og Lee, 2002). Op til tre fjerdedele af humane kodende gener gennemgår alternativ splejsning (Johnson et al., 2003). Der er rigelige beviser for, at alternativ splejsning er forbundet med afslappninger af selektionstryk under evolution (Boue et al., 2003). For eksempel observeres alternativ splejsning at være forbundet med en accelereret hastighed for eksonoprettelse og tab (Modrek og Lee, 2003), nye eksonoprindelser fra Alu-elementer (Sorek et al., 2002), tolerance over for for tidlige termineringskodoner., 2003, Lee, 2004) og så videre. Iida og Akashi (2000) undersøgte sekvensdivergensmønstrene for 110 alternativt splejsede proteinkodende gener fra humane og Drosophila og fandt, at alternativt splejsede regioner af disse gener havde højere ka/Ks-værdier sammenlignet med konstitutive regioner. Andre eksempler på forhøjede Ka/Ks i alternativt splejsede eksoner er også rapporteret (Filip og Mundy, 2004; Hurst og Pal, 2001). Disse observationer rejser et spørgsmål vedrørende divergensen fra Ka / Ks-forholdstesten blandt alternativt splejsede eksoner.
2 metoder
vi identificerede alternativt splejsede eksoner ved at tilpasse humane udtrykte sekvenser til det humane genom (Modrek et al., 2001). For at kvantificere graden af alternativ splejsning for hver alternativt splejset ekson, vi brugte en standardmetrik for alternativ splejsning—ekson-inklusionsniveauet, defineret som antallet af Est ‘er, der omfattede en ekson divideret med det samlede antal Est’ er, der enten inkluderede eller sprang over denne ekson. Vi opdelte alternativt splejsede eksoner i tre klasser baseret på deres inklusionsniveauer: hovedform (>2/3), mellemform (mellem 1/3 og 2/3) og mindre form (<1/3).
vi identificerede den ortologe eksonsekvens for hver menneskelig ekson i den genomiske sekvens af museortholog, som tidligere beskrevet (Modrek og Lee, 2003). For hvert ortologt eksonsekvenspar med menneske-mus udførte vi ka / Ks-forholdstesten efter protokollen fra Nekrutenko et al. (2003a). Kort sagt, ortologe eksonsekvenser fra menneske og mus blev oversat og derefter justeret ved hjælp af Thompson et al., 1994 under standardparametre. Denne proteinjustering blev brugt til at frø en justering af tilsvarende nukleotidsekvenser, og huller i justeringen blev trimmet. Vi estimerede antallet af synonyme og ikke-synonyme substitutioner / steder ved hjælp af Yang–Nielsen-estimaterne fra yn00-programmet i PAML-pakken (PAML 3.14) (Yang, 1997). Vi byggede en 2-liters 2-beredskabstabel ved hjælp af antallet af ændrede og uændrede synonyme/ikke-synonyme steder og testede, om ka/Ks-forholdet var signifikant <1 ved hjælp af Fishers nøjagtige test. Vi definerede en ekson som bestået ka/Ks-forholdstesten, hvis dens Ka / Ks var signifikant <1 på p < 0,05 niveau.
3 resultater og diskussion
vi udarbejdede en liste over 925 humane alternativt splejsede eksoner, der blev konserveret mellem humane og musegenomer, baseret på analyser af humane udtrykte sekvenser (Modrek et al., 2001). Vi udarbejdede også en liste over 10 996 menneskelige konstitutive eksoner som kontrol. Alle disse eksoner var interne eksoner flankeret af introner i begge ender. Vi udførte ka / Ks-forholdstestene på disse eksoner efter protokollen fra (Nekrutenko et al., 2003a) (se afsnittet metoder). Af de konstitutive eksoner 9.8% bestod ikke ka / Ks-forholdstesten, et forhold svarende til det, der blev rapporteret af den indledende undersøgelse (8%) (Nekrutenko et al., 2002) (tabel 1). I modsætning hertil kunne 22,3% af alternativt splejsede eksoner, der blev testet, ikke bestå ka/Ks-forholdstesten, en mere end 2 gange stigning sammenlignet med konstitutive eksoner. Fordi alternativt splejsede eksoner med forskellige ekson-inklusionsniveauer (se definitioner i afsnittet metoder) udviste forskellige mønstre af evolutionær divergens (Modrek og Lee, 2003; Pan et al., 2004, delte vi de 925 alternativt splejsede eksoner i tre klasser baseret på deres ekskon-inklusionsniveauer (se afsnittet metoder). Fraktionen af eksoner, der ikke bestod testen, var 16,0% for eksoner i større form og steg til 85,7% for alternative eksoner i mindre form (inkluderet <1/3 i udskrifterne). Da alternativt splejsede eksoner i gennemsnit var kortere, opdelte vi også eksoner baseret på deres størrelser (Fig. 1). I både konstitutive og alternativt splejsede eksoner var fraktionerne, der ikke bestod testen, højere for kortere eksoner, i overensstemmelse med den oprindelige undersøgelse Nekrutenko et al., 2002. Fraktionen var imidlertid konsekvent højere i alternativt splejsede eksoner efter kontrol for eksonstørrelser (f.eks. 5,4% for konstitutive eksoner og 16,6% for alternativt splejsede eksoner mellem 101 og 150 nt; Fig. 1). Analyser af mus alternativt splejsede eksoner i en mus–human sammenligning gav lignende resultater (data ikke vist).
vores resultat indikerer, at en signifikant højere fraktion af alternativt splejsede eksoner i det humane genom ikke kan bestå ka/Ks-forholdstesten. Dette oversættes imidlertid ikke straks til en øget falsk negativ hastighed af KA/Ks-forholdstesten i alternativt splejsede eksoner, da andre fortolkninger er mulige. Betyder disse data faktisk, at et betydeligt antal alternativt splejsede eksoner observeret i de menneskelige EST-sekvenser ikke repræsenterer reelle eksoner, men faktisk kommer fra artefakter i EST-dataene (f. eks. sjældne spliceosomale fejl) (Modrek og Lee, 2002; Sorek og Safer, 2003)? Denne forklaring synes særlig plausibel for eksoner i mindre form (som observeres i en lille brøkdel af EST-sekvenser). For at teste denne mulighed analyserede vi en delmængde af alternativt splejsede eksoner, der blev understøttet af mRNA-sekvenser i fuld længde. Vi observerede lignende fraktioner af alternativt splejsede eksoner, der svigtede ka / Ks-forholdstesten (tabel 2). Derfor, falske eksoner stammer fra EST-artefakter kan ikke forklare vores data. Repræsenterer alternativt splejsede eksoner, der fejler ka / Ks-forholdstesten, stort set ikke-funktionelle splejsningsformer? For at besvare dette spørgsmål begrænsede vi vores Analyse til et sæt på 120 eksoner, der alternativt blev splejset i både humane og musetranskriptomer. Et sådant mønster af’ forfædres alternativ splejsning ‘ blev bredt vedtaget som et kriterium for funktionelle alternative splejsningshændelser (Resch et al., 2004; Sorek et al., 2004a). I disse eksoner kunne en endnu højere 49,2% (mod 22,3% af alle alternativt splejsede eksoner) ikke bestå ka/Ks-forholdstesten (tabel 1) i overensstemmelse med en anden nylig undersøgelse af sådanne eksoner (Ohler et al., 2005). Derfor kan hypotesen for ikke-funktionelle splejsningsformer heller ikke forklare vores data. Endelig for at udelukke CpG-øernes potentielle indflydelse beregnede vi hyppigheden af CpG over GpC i hver ekson og begrænsede vores Analyse til en delmængde af alternativt splejsede eksoner, hvis CpG/GpC-forhold var <0,8 (Iida og Akashi, 2000). Af disse eksoner kunne 20,8% ikke bestå denne test svarende til procentdelen for det samlede sæt alternativt splejsede eksoner (tabel 1). Selvom et øget ka/Ks-forhold i princippet kan afspejle forskellige underliggende mekanismer , hvilket ikke er fokus for dette manuskript, indikerer vores kontrolanalyser, at en stor brøkdel af funktionelle alternative eksoner i det menneskelige genom fejler ka/Ks-forholdstesten.
konstitutive eksoner overstiger alternativt splejsede eksoner i de fleste proteinkodende gener. Est ‘ er) stadig er ret lav, er ka / Ks-forholdstesten et kraftfuldt værktøj til raffinering af forudsigelser af beregningsgenstruktur. Imidlertid er størstedelen af pattedyrs proteinkodende gener alternativt splejset, og et lille antal alternativt splejsede eksoner kan have dybe funktionelle og regulatoriske virkninger, som for nylig illustreret ved den alternative splejsning af C2A-domænet i Piccolo (Garcia et al. 2004) og mange andre. Vores Analyse antyder, at det i organismer med omfattende alternativ splejsning (f.eks. pattedyr) foretrækkes at kombinere ka/Ks-forholdstesten med andre målinger, der indikerer sandsynligheden for alternativ splejsning. Heldigvis har evolutionær genomik også kastet lys over de typiske træk ved funktionelle alternativt splejsede eksoner , som med succes er blevet brugt i forudsigelser (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Sådanne oplysninger kan integreres med KA/Ks-forholdstesten for en mere nøjagtig vurdering af proteinkodende potentialer i genomiske regioner.
ka / Ks-forholdstesten på konstitutive og alternativt splejsede eksoner med forskellige størrelser. A) konstitutive eksoner og B) alternativt splejsede eksoner.
ka / Ks-forholdstesten på konstitutive og alternativt splejsede eksoner med forskellige størrelser. A) konstitutive eksoner og B) alternativt splejsede eksoner.
Eksoner, der består eller fejler ka/Ks-forholdstesten
typer af eksoner . | i alt#. | gennemsnitlig længde (bp) . | # mislykkes . | # Pass . | % mislykkes . | middel (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstituerende | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hovedform) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
typer af eksoner . | i alt#. | gennemsnitlig længde (bp) . | # mislykkes . | # Pass . | % mislykkes . | middel (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstituerende | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hovedform) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (mellemform) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (mindre form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Eksoner, der består eller fejler ka/Ks-forholdstesten
typer af eksoner . | i alt#. | gennemsnitlig længde (bp) . | # mislykkes . | # Pass . | % mislykkes . | middel (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstituerende | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hovedform) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
typer af eksoner . | i alt#. | gennemsnitlig længde (bp) . | # mislykkes . | # Pass . | % mislykkes . | middel (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstituerende | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hovedform) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (mellemform) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (mindre form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Eksoner understøttet af humane mRNA ‘ er, der består eller fejler ka / Ks-forholdstesten
typer af eksoner . | i alt#. | # mislykkes . | # Pass . | % mislykkes . |
---|---|---|---|---|
konstituerende | 10 524 | 1017 | 9507 | 9.7 |
alternativ | 811 | 158 | 653 | 19.5 |
Alt (hovedform) | 618 | 99 | 519 | 16.0 |
Alt (mellemform) | 170 | 39 | 131 | 22.9 |
Alt (mindre form) | 23 | 20 | 3 | 87.0 |
typer af eksoner . | i alt#. | # mislykkes . | # Pass . | % mislykkes . |
---|---|---|---|---|
Konstituerende | 10 524 | 1017 | 9507 | 9.7 |
Alternativ | 811 | 158 | 653 | 19.5 |
Alt (hovedform) | 618 | 99 | 519 | 16.0 |
Alt (mellemform) | 170 | 39 | 131 | 22.9 |
Alt (mindre form) | 23 | 20 | 3 | 87.0 |
Eksoner understøttet af humane mRNA ‘ er, der består eller fejler ka / Ks-forholdstesten
typer af eksoner . | i alt#. | # mislykkes . | # Pass . | % mislykkes . |
---|---|---|---|---|
konstituerende | 10 524 | 1017 | 9507 | 9.7 |
alternativ | 811 | 158 | 653 | 19.5 |
Alt (hovedform) | 618 | 99 | 519 | 16.0 |
Alt (mellemform) | 170 | 39 | 131 | 22.9 |
Alt (mindre form) | 23 | 20 | 3 | 87.0 |
typer af eksoner . | i alt#. | # mislykkes . | # Pass . | % mislykkes . |
---|---|---|---|---|
Konstituerende | 10 524 | 1017 | 9507 | 9.7 |
Alternativ | 811 | 158 | 653 | 19.5 |
Alt (hovedform) | 618 | 99 | 519 | 16.0 |
Alt (mellemform) | 170 | 39 | 131 | 22.9 |
Alt (mindre form) | 23 | 20 | 3 | 87.0 |
forfatterne takker Anton Nekrutenko for læsning af vores manuskript og for de nyttige kommentarer. Dette arbejde blev støttet af NIH Grant U54-RR021813, en lærer–lærd pris til C. J. L. fra Dreyfus Foundation, en doe grant de-FC02-02er63421. Er støttet af en ph.d. afhandling stipendium fra UCLA.
interessekonflikt: ingen erklæret.
Boue, S., et al.
alternativ splejsning og evolution.
-1034
Filip, L. C. Og Mundy, N. I.
hurtig udvikling ved positiv darvinsk selektion i det ekstracellulære domæne af det rigelige lymfocytprotein CD45 i primater.
-1511
Garcia, J., et al.
en konformationskontakt i Piccolo C2A-domænet reguleret af alternativ splejsning.
-53
Hurst, L. D. og Pal, C.
bevis for rensning af udvælgelse, der virker på tavse steder i BRCA1.
-65
Iida, K. og Akashi, H.
en test af translationel selektion på ‘tavse’ steder i det humane genom: sammenligninger af basissammensætning i alternativt splejsede gener.
-105
Johnson, J. M., et al.
genom-dækkende undersøgelse af human alternativ præ-mRNA splejsning med ekson junction microarrays.
-2144
Kellis, M., et al.
sekventering og sammenligning af gærarter for at identificere gener og regulatoriske elementer.
-254
Lareau, L. F., et al.
de udviklende roller alternativ splejsning.
-282
B. P., Et Al.
bevis for den udbredte kobling af alternativ splejsning og nonsens-medieret mRNA-henfald hos mennesker.
-192
Miller, M., et al.
sammenlignende genomik.
-56
Modrek, B. Og Lee, C.
et genomisk billede af alternativ splejsning.
-19
Modrek, B. Og Lee, C.
alternativ splejsning i humane, mus-og rottegenomer er forbundet med en øget grad af eksonskabelse/tab.
-180
Modrek, B., Et Al.
genom-dækkende analyse af alternativ splejsning ved hjælp af humane udtrykte sekvensdata.
-2859
Nekrutenko, A.
afstemning af tallene: Est ‘ er versus proteinkodende gener.
-1282
Nekrutenko, A., et al.
K(A) / K (s)-forholdstesten til vurdering af proteinkodningspotentialet i genomiske regioner: en empirisk og simuleringsundersøgelse.
-202
Nekrutenko, A., et al.
etope: evolutionær test af forudsagte eksoner.
-3567
Nekrutenko, A., et al.
en evolutionær tilgang afslører en høj proteinkodningskapacitet af det humane genom.
-310
Ohler, U., et al.
anerkendelse af ukendte konserverede alternativt splejsede eksoner.
Pan, K., Et al.
afslørende globale regulatoriske træk ved alternativ splejsning af pattedyr ved hjælp af en kvantitativ mikroarray-platform.
-941
Philipps, D. L., et al.
en beregnings-og eksperimentel tilgang til a priori identifikation af alternativt splejsede eksoner.
-1844
Resch, A., et al.
bevis for en underbefolkning af konserverede alternative splejsningshændelser under selektionstryk til konservering af proteinaflæsningsramme.
-1269
Sorek, R. og Ast, G.
Introniske sekvenser, der flankerer alternativt splejsede eksoner, bevares mellem menneske og mus.
-1637
Sorek, R. Og Safer, H. M.
en ny algoritme til beregningsmæssig identifikation af forurenede EST-biblioteker.
-1074
Sorek, R., et al.
Alu-holdige eksoner er alternativt splejset.
-1067
Sorek, R., et al.
hvor udbredt er funktionel alternativ splejsning i det menneskelige genom?
-71
Sorek, R., et al.
en ikke-EST-baseret metode til ekson-springe forudsigelse.
-1623
Thompson, J. D., et al.
forbedring af følsomheden ved progressiv multiple sekvensjustering gennem sekvensvægtning, positionsspecifikke gap-sanktioner og valg af vægtmatrice.
-4680
Y. og Lee, C.
negativt selektionstryk mod for tidlig proteinafkortning reduceres ved både alternativ splejsning og diploidi.
-475
Yang, J.
PAML: en programpakke til fylogenetisk analyse efter maksimal sandsynlighed.
-556
Yeo, G. V., et al.
identifikation og analyse af alternative splejsningshændelser bevaret hos mennesker og mus.
-2855
Jens, J. og Gerstein, M.
storskala analyse af pseudogener i det menneskelige genom.
–335