Abstrakt
sammanfattning: nyligen ka/Ks-förhållandetestet, som bedömer proteinkodningspotentialerna i genomiska regioner baserat på deras icke-synonymt med synonyma divergenshastigheter, har föreslagits och framgångsrikt använts i genomanteckningar av eukaryoter. Vi utförde systematiskt ka / Ks-förhållandet test på 925 transkript-bekräftade alternativt skarvade exoner i det mänskliga genomet, som vi beskriver i detta manuskript. Vi fann att 22.3% av evolutionärt konserverade alternativt skarvade exoner inte kan klara Ka / Ks-förhållandet, jämfört med 9.8% för konstitutiva exoner. Den falska negativa frekvensen var den högsta (85,7%) för exoner med låga frekvenser av transkriptinkludering. Analyser av alternativt skarvade exoner som stöds av mRNA-sekvenser i full längd gav liknande resultat, och nästan hälften av exoner som är involverade i förfädernas alternativa skarvningshändelser kunde inte klara detta test. Vår analys föreslår en framtida riktning för att införliva jämförande genomikbaserade alternativa splitsningsprognoser med Ka/Ks-förhållandetestet i högre eukaryoter med omfattande RNA-alternativ Splitsning.
Contact:[email protected]
1 Introduktion
jämförande genomik har gett kraftfulla verktyg för anteckningar av eukaryota genom (Kellis et al., 2003). I en banbrytande studie, Nekrutenko et al. (2002) föreslog ’Ka/Ks ratio test’ för att bedöma proteinkodningspotentialerna för förutsagda exoner. Detta test är baserat på antagandet att majoriteten av proteinkodande regioner i det mänskliga genomet är under starkt renande urval under evolutionen. Som ett resultat överstiger deras frekvenser av synonymt divergens (Ks) kraftigt hastigheterna för icke-synonymt divergens (Ka), vilket ger ka/Ks–förhållanden på mycket mindre än en i orthologa sekvensjämförelser mellan människa och mus. På ett prov av 1244 exoner från 153 proteinkodande gener gav ka / Ks-förhållandetestet en 8% falsk negativ hastighet och en <5% falsk positiv hastighet för interna exoner, en noggrannhet som var bättre än de flesta av genförutsägningsverktygen (Nekrutenko et al., 2002). Sedan introduktionen har ka / Ks-förhållandetestet använts i stor utsträckning och framgångsrikt för att förbättra anteckningarna av mänskliga och andra däggdjursgenom (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang och Gerstein, 2004).
en framväxande fråga om ka / Ks-förhållandetestet avser alternativt skarvade exoner i de eukaryota genomerna. Nya studier av uttryckta sekvenser och mikroarraydata har visat att alternativ skarvning är en utbredd mekanism för genreglering i högre eukaryoter (Lareau et al., 2004; Modrek och Lee, 2002). Upp till tre fjärdedelar av humana kodande gener genomgår alternativ skarvning (Johnson et al., 2003). Det finns rikliga bevis som tyder på att alternativ skarvning är förknippad med avslappningar av urvalstryck under evolutionen (Boue et al., 2003). Till exempel observeras alternativ skarvning vara associerad med en accelererad hastighet av exon skapande och förlust (Modrek och Lee, 2003), nya exon-ursprung från Alu-element (Sorek et al., 2002), tolerans för för tidiga termineringskodoner (Lewis et al., 2003; Xing och Lee, 2004), och så vidare. Iida och Akashi (2000) undersökte sekvensdivergensmönstren för 110 alternativt skarvade proteinkodande gener från humana och Drosophila, och fann att alternativt skarvade regioner av dessa gener hade högre Ka/Ks-värden jämfört med konstitutiva regioner. Andra exempel på förhöjda Ka / Ks i alternativt skarvade exoner har också rapporterats (Filip och Mundy, 2004; Hurst och Pal, 2001). Dessa observationer väcker en fråga angående avvikelsen från Ka/Ks-förhållandetestet bland alternativt skarvade exoner.
2 metoder
vi identifierade alternativt skarvade exoner genom att anpassa humana uttryckta sekvenser till det mänskliga genomet (Modrek et al., 2001). För att kvantifiera graden av alternativ skarvning för varje alternativt skarvad exon använde vi en standardmått för alternativ skarvning—exon-inklusionsnivån, definierad som antalet ester som inkluderade en exon dividerat med det totala antalet ester som antingen inkluderade eller hoppade över denna exon. Vi delade alternativt skarvade exoner i tre klasser baserat på deras inkluderingsnivåer: major-form (>2/3), medium-form (mellan 1/3 och 2/3) och minor-form (<1/3).
vi identifierade den ortologa exonsekvensen för varje human exon i den genomiska sekvensen av musorthologen, som tidigare beskrivits (Modrek och Lee, 2003). För varje orthologous exon-sekvenspar med människa-mus utförde vi Ka/Ks-förhållandetestet efter protokollet från Nekrutenko et al. (2003a). Kortfattat, ortologa exonsekvenser från människa och mus översattes och justerades sedan med CLUSTALW Thompson et al., 1994 under standardparametrar. Denna proteininriktning användes för att frö en inriktning av motsvarande nukleotidsekvenser, och luckor i inriktningen trimmades. Vi uppskattade antalet synonyma och icke-synonyma substitutioner / webbplatser med hjälp av Yang–Nielsen-uppskattningarna från YN00-programmet i PAML-paketet (PAML 3.14) (Yang, 1997). Vi byggde en 2-2-beredskapstabell med hjälp av antalet ändrade och oförändrade synonyma/icke-synonyma webbplatser och testade om ka/Ks-förhållandet var signifikant <1 med Fishers exakta test. Vi definierade en exon som att passera Ka / Ks-förhållandetestet om dess Ka / Ks var signifikant <1 Vid p < 0.05-nivån.
3 resultat och diskussion
vi sammanställde en lista över 925 mänskliga alternativt skarvade exoner som bevarades mellan mänskliga och musgenom, baserat på analyser av mänskliga uttryckta sekvenser (Modrek et al., 2001). Vi sammanställde också en lista över 10 996 mänskliga konstitutiva exoner som kontroll. Alla dessa exoner var interna exoner flankerade av introner i båda ändar. Vi utförde ka / Ks-förhållandet tester på dessa exoner efter protokollet från (Nekrutenko et al., 2003a) (se avsnittet metoder). Av de konstitutiva exonerna 9.8% misslyckades med att klara ka / Ks-förhållandetestet, ett förhållande som liknar det som rapporterades av den ursprungliga studien (8%) (Nekrutenko et al., 2002) (Tabell 1). Däremot kunde 22,3% av alternativt skarvade exoner som testades inte klara ka / Ks-förhållandetestet, en mer än 2-faldig ökning jämfört med konstitutiva exoner. Eftersom alternativt skarvade exoner med olika exoninklusionsnivåer (se definitioner i avsnittet metoder) uppvisade olika mönster av evolutionär divergens (Modrek och Lee, 2003; Pan et al., 2004, delade vi 925 alternativt skarvade exoner i tre klasser baserat på deras exon-inklusionsnivåer (se Metodavsnittet). Fraktionen av exoner som misslyckades med testet var 16,0% för exoner i huvudform och ökade till 85,7% för alternativa exoner i mindre form (inkluderade <1/3 i transkripten). Eftersom alternativt skarvade exoner var kortare i genomsnitt, delade vi också upp exoner baserat på deras storlekar (Fig. 1). I både konstitutiva och alternativt skarvade exoner, fraktionerna som misslyckades med testet var högre för kortare exoner, överensstämmer med den ursprungliga studien Nekrutenko et al., 2002. Fraktionen var emellertid konsekvent högre i alternativt skarvade exoner efter kontroll av exonstorlekar (t.ex. 5,4% för konstitutiva exoner och 16,6% för alternativt skarvade exoner mellan 101 och 150 nt; Fig. 1). Analyser av mus alternativt skarvade exoner i en mus–mänsklig jämförelse gav liknande resultat (data visas inte).
vårt resultat indikerar att en signifikant högre fraktion av alternativt skarvade exoner i det mänskliga genomet inte kan klara ka/Ks-förhållandetestet. Detta översätts emellertid inte omedelbart till en ökad falsk negativ hastighet för Ka/Ks-förhållandetestet i alternativt skarvade exoner, eftersom andra tolkningar är möjliga. Innebär dessa data faktiskt att ett betydande antal alternativt skarvade exoner som observerats i de mänskliga EST-sekvenserna inte representerar verkliga exoner, men kommer faktiskt från artefakter i EST-data (t. ex. sällsynta spliceosomala fel) (Modrek och Lee, 2002; Sorek och Safer, 2003)? Denna förklaring verkar särskilt trolig för mindre exoner (som observeras i en liten bråkdel av EST-sekvenser). För att testa denna möjlighet analyserade vi en delmängd av alternativt skarvade exoner som stöddes av mRNA-sekvenser i full längd. Vi observerade liknande fraktioner av alternativt skarvade exoner som misslyckades med Ka / Ks-förhållandetestet (Tabell 2). Därför, falska exoner härstammar från EST artefakter kan inte förklara våra data. Representerar alternativt skarvade exoner som misslyckas med Ka/Ks-förhållandetestet i stor utsträckning icke-funktionella skarvformer? För att svara på denna fråga begränsade vi vår analys till en uppsättning av 120 exoner som alternativt skarvades i både mänskliga och mustranskriptomer. Ett sådant mönster av ’förfädernas alternativa skarvning’ antogs allmänt som ett kriterium för funktionella alternativa skarvningshändelser (Resch et al., 2004; Sorek et al., 2004a). I dessa exoner kunde en ännu högre 49,2% (mot 22,3% av alla alternativt skarvade exoner) inte klara Ka/Ks-förhållandetestet (Tabell 1), i överensstämmelse med en annan ny studie om sådana exoner (Ohler et al., 2005). Därför kan hypotesen för icke-funktionella skarvformer inte heller förklara våra data. Slutligen, för att utesluta CPG-öarnas potentiella inflytande, beräknade vi frekvensen av CpG över GpC i varje exon och begränsade vår analys till en delmängd av alternativt skarvade exoner vars CPG/GpC-förhållanden var <0.8 (Iida och Akashi, 2000). Av dessa exoner kunde 20,8% inte klara detta test, liknande procentsatsen för den totala uppsättningen alternativt skarvade exoner (Tabell 1). Även om ett ökat ka/Ks-förhållande i princip kan återspegla olika underliggande mekanismer, vilket inte är fokus för detta manuskript, indikerar våra kontrollanalyser att en stor del av funktionella alternativa exoner i det mänskliga genomet misslyckas med Ka/Ks-förhållandetestet.
konstitutiva exoner överträffar alternativt skarvade exoner i de flesta proteinkodande gener. Eftersom i många organismer transkript sekvenstäckning (t.ex. ESTs) fortfarande är ganska låg, är KA/Ks-förhållandetestet ett kraftfullt verktyg för raffinering av beräkningsgenstrukturprognoser. Men majoriteten av däggdjursproteinkodande gener är alternativt skarvade, och ett litet antal alternativt skarvade exoner kan ha djupa funktionella och reglerande effekter, vilket nyligen illustreras av den alternativa skarvningen av C2A-domänen för Piccolo (Garcia et al., 2004) och många andra. Vår analys tyder på att i organismer med omfattande alternativ skarvning (t.ex. däggdjur) är det att föredra att kombinera ka/Ks-förhållandetestet med andra mätvärden som indikerar sannolikheten för alternativ skarvning. Lyckligtvis har evolutionär genomik också belyst de typiska egenskaperna hos funktionella alternativt skarvade exoner, som framgångsrikt har använts i förutsägelser (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Sådan information kan integreras med KA / Ks-förhållandetestet för en mer exakt bedömning av proteinkodningspotentialer i genomiska regioner.
ka / Ks-förhållandetestet på konstitutiva och alternativt skarvade exoner med olika storlekar. (A) konstitutiva exoner och (B) alternativt skarvade exoner.
ka / Ks-förhållandetestet på konstitutiva och alternativt skarvade exoner med olika storlekar. (A) konstitutiva exoner och (B) alternativt skarvade exoner.
exoner som klarar eller misslyckas med KA / Ks-kvottestet
typer av exoner . | totalt # . | genomsnittlig längd (bp) . | # misslyckas . | # passera . | % misslyckas . | medelvärde (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-form) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
typer av exoner . | totalt # . | genomsnittlig längd (bp) . | # misslyckas . | # passera . | % misslyckas . | medelvärde (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-form) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medelform) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
exoner som klarar eller misslyckas med KA / Ks-kvottestet
typer av exoner . | totalt # . | genomsnittlig längd (bp) . | # misslyckas . | # passera . | % misslyckas . | medelvärde (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-form) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
typer av exoner . | totalt # . | genomsnittlig längd (bp) . | # misslyckas . | # passera . | % misslyckas . | medelvärde (median) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Major-form) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medelform) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
exoner som stöds av humana mRNA som klarar eller misslyckas med KA / Ks-kvottestet
typer av exoner . | totalt # . | # misslyckas . | # passera . | % misslyckas . |
---|---|---|---|---|
konstitutiv | 10 524 | 1017 | 9507 | 9.7 |
alternativ | 811 | 158 | 653 | 19.5 |
Alt (Major-form) | 618 | 99 | 519 | 16.0 |
Alt (Medelform) | 170 | 39 | 131 | 22.9 |
Alt (Minor-form) | 23 | 20 | 3 | 87.0 |
typer av exoner . | totalt # . | # misslyckas . | # passera . | % misslyckas . |
---|---|---|---|---|
Konstitutiv | 10 524 | 1017 | 9507 | 9.7 |
Alternativ | 811 | 158 | 653 | 19.5 |
Alt (Major-form) | 618 | 99 | 519 | 16.0 |
Alt (Medelform) | 170 | 39 | 131 | 22.9 |
Alt (Minor-form) | 23 | 20 | 3 | 87.0 |
exoner som stöds av humana mRNA som klarar eller misslyckas med KA / Ks-kvottestet
typer av exoner . | totalt # . | # misslyckas . | # passera . | % misslyckas . |
---|---|---|---|---|
konstitutiv | 10 524 | 1017 | 9507 | 9.7 |
alternativ | 811 | 158 | 653 | 19.5 |
Alt (Major-form) | 618 | 99 | 519 | 16.0 |
Alt (Medelform) | 170 | 39 | 131 | 22.9 |
Alt (Minor-form) | 23 | 20 | 3 | 87.0 |
typer av exoner . | totalt # . | # misslyckas . | # passera . | % misslyckas . |
---|---|---|---|---|
Konstitutiv | 10 524 | 1017 | 9507 | 9.7 |
Alternativ | 811 | 158 | 653 | 19.5 |
Alt (Major-form) | 618 | 99 | 519 | 16.0 |
Alt (Medelform) | 170 | 39 | 131 | 22.9 |
Alt (Minor-form) | 23 | 20 | 3 | 87.0 |
författarna tackar Anton Nekrutenko för att ha läst vårt manuskript och för de hjälpsamma kommentarerna. Detta arbete stöddes av NIH Grant U54-RR021813, en lärare-Scholar award till C. J. L. från Dreyfus Foundation, en doe grant DE-FC02-02ER63421. YX stöds av en Ph.D. disputation fellowship från UCLA.
intressekonflikt: ingen deklarerad.
Boue, S., et al.
alternativ splitsning och evolution.
-1034
Filip, L. C. Och Mundy, N. I.
snabb utveckling genom positivt Darwinistiskt urval i den extracellulära domänen för det rikliga lymfocytproteinet CD45 i primater.
-1511
Garcia, J., et al.
en konformationsbrytare i Piccolo C2A-domänen reglerad av alternativ skarvning.
-53
Hurst, L. D. och Pal, C.
bevis för renande urval som verkar på tysta platser i BRCA1.
-65
Iida, K. och Akashi, H.
ett test av translationell selektion på ’tysta’ platser i det mänskliga genomet: baskomposition jämförelser i alternativt skarvade gener.
-105
Johnson, J. M., et al.
Genomomfattande undersökning av humant alternativ pre-mRNA-skarvning med exon junction-mikroarrayer.
-2144
Kellis, M., et al.
sekvensering och jämförelse av jästarter för att identifiera gener och reglerande element.
-254
Lareau, L. F., et al.
de utvecklande rollerna för alternativ skarvning.
-282
Lewis, B. P., et al.
bevis för den utbredda kopplingen av alternativ skarvning och nonsensmedierad mRNA-sönderfall hos människor.
-192
Miller, W., et al.
jämförande genomik.
-56
Modrek, B. Och Lee, C.
en genomisk syn på alternativ skarvning.
-19
Modrek, B. Och Lee, C.
alternativ skarvning i människa -, mus-och råttgenom är förknippad med en ökad hastighet av exon skapande/förlust.
-180
Modrek, B., et al.
Genomomfattande analys av alternativ skarvning med användning av humana uttryckta sekvensdata.
-2859
Nekrutenko, A.
förena siffrorna: ESTs kontra proteinkodande gener.
-1282
Nekrutenko, A., et al.
K(A)/K (S) ratio test för att bedöma proteinkodningspotentialen i genomiska regioner: en empirisk och simuleringsstudie.
-202
Nekrutenko, A., et al.
etope: evolutionärt test av förutspådda exoner.
-3567
Nekrutenko, A., et al.
ett evolutionärt tillvägagångssätt avslöjar en hög proteinkodningskapacitet hos det mänskliga genomet.
-310
Ohler, U., et al.
erkännande av okända konserverade alternativt skarvade exoner.
Pan, Q., et al.
Revealing globala regulatoriska egenskaper hos däggdjursalternativ Splitsning med hjälp av en kvantitativ mikroarrayplattform.
-941
Philipps, D. L., et al.
en beräknings-och experimentell metod mot a priori identifiering av alternativt skarvade exoner.
-1844
Resch, A., et al.
bevis för en subpopulation av konserverade alternativa skarvningshändelser under urvalstryck för bevarande av proteinläsningsram.
-1269
Sorek, R. och Ast, G.
Introniska sekvenser som flankerar alternativt skarvade exoner bevaras mellan människa och mus.
-1637
Sorek, R. och säkrare, H. M.
en ny algoritm för beräkningsidentifiering av förorenade est-bibliotek.
-1074
Sorek, R., et al.
Alu-innehållande exoner är alternativt skarvade.
-1067
Sorek, R., et al.
hur utbredd är funktionell alternativ Splitsning i det mänskliga genomet?
-71
Sorek, R., et al.
en icke-EST-baserad metod för exon-hoppa förutsägelse.
-1623
Thompson, J. D., et al.
CLUSTAL W: förbättra känsligheten för progressiv multipel sekvensinriktning genom sekvensviktning, positionsspecifika gapstraff och viktmatrisval.
-4680
Xing, Y. och Lee, C.
negativt selektionstryck mot för tidig proteinavkortning reduceras genom både alternativ splitsning och diploidi.
-475
Yang, Z.
PAML: ett programpaket för fylogenetisk analys med maximal sannolikhet.
-556
Yeo, G. W., et al.
identifiering och analys av alternativa skarvningshändelser bevarade hos människa och mus.
-2855
Zhang, Z. och Gerstein, M.
storskalig analys av pseudogener i det mänskliga genomet.
–335