bedömning av tillämpningen av Ka/Ks-förhållandetest till alternativt skarvade exoner

Abstrakt

sammanfattning: nyligen ka/Ks-förhållandetestet, som bedömer proteinkodningspotentialerna i genomiska regioner baserat på deras icke-synonymt med synonyma divergenshastigheter, har föreslagits och framgångsrikt använts i genomanteckningar av eukaryoter. Vi utförde systematiskt ka / Ks-förhållandet test på 925 transkript-bekräftade alternativt skarvade exoner i det mänskliga genomet, som vi beskriver i detta manuskript. Vi fann att 22.3% av evolutionärt konserverade alternativt skarvade exoner inte kan klara Ka / Ks-förhållandet, jämfört med 9.8% för konstitutiva exoner. Den falska negativa frekvensen var den högsta (85,7%) för exoner med låga frekvenser av transkriptinkludering. Analyser av alternativt skarvade exoner som stöds av mRNA-sekvenser i full längd gav liknande resultat, och nästan hälften av exoner som är involverade i förfädernas alternativa skarvningshändelser kunde inte klara detta test. Vår analys föreslår en framtida riktning för att införliva jämförande genomikbaserade alternativa splitsningsprognoser med Ka/Ks-förhållandetestet i högre eukaryoter med omfattande RNA-alternativ Splitsning.

Contact:[email protected]

1 Introduktion

jämförande genomik har gett kraftfulla verktyg för anteckningar av eukaryota genom (Kellis et al., 2003). I en banbrytande studie, Nekrutenko et al. (2002) föreslog ’Ka/Ks ratio test’ för att bedöma proteinkodningspotentialerna för förutsagda exoner. Detta test är baserat på antagandet att majoriteten av proteinkodande regioner i det mänskliga genomet är under starkt renande urval under evolutionen. Som ett resultat överstiger deras frekvenser av synonymt divergens (Ks) kraftigt hastigheterna för icke-synonymt divergens (Ka), vilket ger ka/Ks–förhållanden på mycket mindre än en i orthologa sekvensjämförelser mellan människa och mus. På ett prov av 1244 exoner från 153 proteinkodande gener gav ka / Ks-förhållandetestet en 8% falsk negativ hastighet och en <5% falsk positiv hastighet för interna exoner, en noggrannhet som var bättre än de flesta av genförutsägningsverktygen (Nekrutenko et al., 2002). Sedan introduktionen har ka / Ks-förhållandetestet använts i stor utsträckning och framgångsrikt för att förbättra anteckningarna av mänskliga och andra däggdjursgenom (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang och Gerstein, 2004).

en framväxande fråga om ka / Ks-förhållandetestet avser alternativt skarvade exoner i de eukaryota genomerna. Nya studier av uttryckta sekvenser och mikroarraydata har visat att alternativ skarvning är en utbredd mekanism för genreglering i högre eukaryoter (Lareau et al., 2004; Modrek och Lee, 2002). Upp till tre fjärdedelar av humana kodande gener genomgår alternativ skarvning (Johnson et al., 2003). Det finns rikliga bevis som tyder på att alternativ skarvning är förknippad med avslappningar av urvalstryck under evolutionen (Boue et al., 2003). Till exempel observeras alternativ skarvning vara associerad med en accelererad hastighet av exon skapande och förlust (Modrek och Lee, 2003), nya exon-ursprung från Alu-element (Sorek et al., 2002), tolerans för för tidiga termineringskodoner (Lewis et al., 2003; Xing och Lee, 2004), och så vidare. Iida och Akashi (2000) undersökte sekvensdivergensmönstren för 110 alternativt skarvade proteinkodande gener från humana och Drosophila, och fann att alternativt skarvade regioner av dessa gener hade högre Ka/Ks-värden jämfört med konstitutiva regioner. Andra exempel på förhöjda Ka / Ks i alternativt skarvade exoner har också rapporterats (Filip och Mundy, 2004; Hurst och Pal, 2001). Dessa observationer väcker en fråga angående avvikelsen från Ka/Ks-förhållandetestet bland alternativt skarvade exoner.

2 metoder

vi identifierade alternativt skarvade exoner genom att anpassa humana uttryckta sekvenser till det mänskliga genomet (Modrek et al., 2001). För att kvantifiera graden av alternativ skarvning för varje alternativt skarvad exon använde vi en standardmått för alternativ skarvning—exon-inklusionsnivån, definierad som antalet ester som inkluderade en exon dividerat med det totala antalet ester som antingen inkluderade eller hoppade över denna exon. Vi delade alternativt skarvade exoner i tre klasser baserat på deras inkluderingsnivåer: major-form (>2/3), medium-form (mellan 1/3 och 2/3) och minor-form (<1/3).

vi identifierade den ortologa exonsekvensen för varje human exon i den genomiska sekvensen av musorthologen, som tidigare beskrivits (Modrek och Lee, 2003). För varje orthologous exon-sekvenspar med människa-mus utförde vi Ka/Ks-förhållandetestet efter protokollet från Nekrutenko et al. (2003a). Kortfattat, ortologa exonsekvenser från människa och mus översattes och justerades sedan med CLUSTALW Thompson et al., 1994 under standardparametrar. Denna proteininriktning användes för att frö en inriktning av motsvarande nukleotidsekvenser, och luckor i inriktningen trimmades. Vi uppskattade antalet synonyma och icke-synonyma substitutioner / webbplatser med hjälp av Yang–Nielsen-uppskattningarna från YN00-programmet i PAML-paketet (PAML 3.14) (Yang, 1997). Vi byggde en 2-2-beredskapstabell med hjälp av antalet ändrade och oförändrade synonyma/icke-synonyma webbplatser och testade om ka/Ks-förhållandet var signifikant <1 med Fishers exakta test. Vi definierade en exon som att passera Ka / Ks-förhållandetestet om dess Ka / Ks var signifikant <1 Vid p < 0.05-nivån.

3 resultat och diskussion

vi sammanställde en lista över 925 mänskliga alternativt skarvade exoner som bevarades mellan mänskliga och musgenom, baserat på analyser av mänskliga uttryckta sekvenser (Modrek et al., 2001). Vi sammanställde också en lista över 10 996 mänskliga konstitutiva exoner som kontroll. Alla dessa exoner var interna exoner flankerade av introner i båda ändar. Vi utförde ka / Ks-förhållandet tester på dessa exoner efter protokollet från (Nekrutenko et al., 2003a) (se avsnittet metoder). Av de konstitutiva exonerna 9.8% misslyckades med att klara ka / Ks-förhållandetestet, ett förhållande som liknar det som rapporterades av den ursprungliga studien (8%) (Nekrutenko et al., 2002) (Tabell 1). Däremot kunde 22,3% av alternativt skarvade exoner som testades inte klara ka / Ks-förhållandetestet, en mer än 2-faldig ökning jämfört med konstitutiva exoner. Eftersom alternativt skarvade exoner med olika exoninklusionsnivåer (se definitioner i avsnittet metoder) uppvisade olika mönster av evolutionär divergens (Modrek och Lee, 2003; Pan et al., 2004, delade vi 925 alternativt skarvade exoner i tre klasser baserat på deras exon-inklusionsnivåer (se Metodavsnittet). Fraktionen av exoner som misslyckades med testet var 16,0% för exoner i huvudform och ökade till 85,7% för alternativa exoner i mindre form (inkluderade <1/3 i transkripten). Eftersom alternativt skarvade exoner var kortare i genomsnitt, delade vi också upp exoner baserat på deras storlekar (Fig. 1). I både konstitutiva och alternativt skarvade exoner, fraktionerna som misslyckades med testet var högre för kortare exoner, överensstämmer med den ursprungliga studien Nekrutenko et al., 2002. Fraktionen var emellertid konsekvent högre i alternativt skarvade exoner efter kontroll av exonstorlekar (t.ex. 5,4% för konstitutiva exoner och 16,6% för alternativt skarvade exoner mellan 101 och 150 nt; Fig. 1). Analyser av mus alternativt skarvade exoner i en mus–mänsklig jämförelse gav liknande resultat (data visas inte).

vårt resultat indikerar att en signifikant högre fraktion av alternativt skarvade exoner i det mänskliga genomet inte kan klara ka/Ks-förhållandetestet. Detta översätts emellertid inte omedelbart till en ökad falsk negativ hastighet för Ka/Ks-förhållandetestet i alternativt skarvade exoner, eftersom andra tolkningar är möjliga. Innebär dessa data faktiskt att ett betydande antal alternativt skarvade exoner som observerats i de mänskliga EST-sekvenserna inte representerar verkliga exoner, men kommer faktiskt från artefakter i EST-data (t. ex. sällsynta spliceosomala fel) (Modrek och Lee, 2002; Sorek och Safer, 2003)? Denna förklaring verkar särskilt trolig för mindre exoner (som observeras i en liten bråkdel av EST-sekvenser). För att testa denna möjlighet analyserade vi en delmängd av alternativt skarvade exoner som stöddes av mRNA-sekvenser i full längd. Vi observerade liknande fraktioner av alternativt skarvade exoner som misslyckades med Ka / Ks-förhållandetestet (Tabell 2). Därför, falska exoner härstammar från EST artefakter kan inte förklara våra data. Representerar alternativt skarvade exoner som misslyckas med Ka/Ks-förhållandetestet i stor utsträckning icke-funktionella skarvformer? För att svara på denna fråga begränsade vi vår analys till en uppsättning av 120 exoner som alternativt skarvades i både mänskliga och mustranskriptomer. Ett sådant mönster av ’förfädernas alternativa skarvning’ antogs allmänt som ett kriterium för funktionella alternativa skarvningshändelser (Resch et al., 2004; Sorek et al., 2004a). I dessa exoner kunde en ännu högre 49,2% (mot 22,3% av alla alternativt skarvade exoner) inte klara Ka/Ks-förhållandetestet (Tabell 1), i överensstämmelse med en annan ny studie om sådana exoner (Ohler et al., 2005). Därför kan hypotesen för icke-funktionella skarvformer inte heller förklara våra data. Slutligen, för att utesluta CPG-öarnas potentiella inflytande, beräknade vi frekvensen av CpG över GpC i varje exon och begränsade vår analys till en delmängd av alternativt skarvade exoner vars CPG/GpC-förhållanden var <0.8 (Iida och Akashi, 2000). Av dessa exoner kunde 20,8% inte klara detta test, liknande procentsatsen för den totala uppsättningen alternativt skarvade exoner (Tabell 1). Även om ett ökat ka/Ks-förhållande i princip kan återspegla olika underliggande mekanismer, vilket inte är fokus för detta manuskript, indikerar våra kontrollanalyser att en stor del av funktionella alternativa exoner i det mänskliga genomet misslyckas med Ka/Ks-förhållandetestet.

konstitutiva exoner överträffar alternativt skarvade exoner i de flesta proteinkodande gener. Eftersom i många organismer transkript sekvenstäckning (t.ex. ESTs) fortfarande är ganska låg, är KA/Ks-förhållandetestet ett kraftfullt verktyg för raffinering av beräkningsgenstrukturprognoser. Men majoriteten av däggdjursproteinkodande gener är alternativt skarvade, och ett litet antal alternativt skarvade exoner kan ha djupa funktionella och reglerande effekter, vilket nyligen illustreras av den alternativa skarvningen av C2A-domänen för Piccolo (Garcia et al., 2004) och många andra. Vår analys tyder på att i organismer med omfattande alternativ skarvning (t.ex. däggdjur) är det att föredra att kombinera ka/Ks-förhållandetestet med andra mätvärden som indikerar sannolikheten för alternativ skarvning. Lyckligtvis har evolutionär genomik också belyst de typiska egenskaperna hos funktionella alternativt skarvade exoner, som framgångsrikt har använts i förutsägelser (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Sådan information kan integreras med KA / Ks-förhållandetestet för en mer exakt bedömning av proteinkodningspotentialer i genomiska regioner.

Fig. 1

ka / Ks-förhållandetestet på konstitutiva och alternativt skarvade exoner med olika storlekar. (A) konstitutiva exoner och (B) alternativt skarvade exoner.

Fig. 1

ka / Ks-förhållandetestet på konstitutiva och alternativt skarvade exoner med olika storlekar. (A) konstitutiva exoner och (B) alternativt skarvade exoner.

Tabell 1

exoner som klarar eller misslyckas med KA / Ks-kvottestet

typer av exoner . totalt # . genomsnittlig längd (bp) . # misslyckas . # passera . % misslyckas . medelvärde (median) Ka/Ks .
konstitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativ 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-form) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
typer av exoner . totalt # . genomsnittlig längd (bp) . # misslyckas . # passera . % misslyckas . medelvärde (median) Ka/Ks .
konstitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativ 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-form) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medelform) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG / GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabell 1

exoner som klarar eller misslyckas med KA / Ks-kvottestet

typer av exoner . totalt # . genomsnittlig längd (bp) . # misslyckas . # passera . % misslyckas . medelvärde (median) Ka/Ks .
konstitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativ 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-form) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
typer av exoner . totalt # . genomsnittlig längd (bp) . # misslyckas . # passera . % misslyckas . medelvärde (median) Ka/Ks .
konstitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativ 925 122 206 719 22.3 0.199 (0.094)
Alt (Major-form) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medelform) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG / GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabell 2

exoner som stöds av humana mRNA som klarar eller misslyckas med KA / Ks-kvottestet

typer av exoner . totalt # . # misslyckas . # passera . % misslyckas .
konstitutiv 10 524 1017 9507 9.7
alternativ 811 158 653 19.5
Alt (Major-form) 618 99 519 16.0
Alt (Medelform) 170 39 131 22.9
Alt (Minor-form) 23 20 3 87.0
typer av exoner . totalt # . # misslyckas . # passera . % misslyckas .
Konstitutiv 10 524 1017 9507 9.7
Alternativ 811 158 653 19.5
Alt (Major-form) 618 99 519 16.0
Alt (Medelform) 170 39 131 22.9
Alt (Minor-form) 23 20 3 87.0
Tabell 2

exoner som stöds av humana mRNA som klarar eller misslyckas med KA / Ks-kvottestet

typer av exoner . totalt # . # misslyckas . # passera . % misslyckas .
konstitutiv 10 524 1017 9507 9.7
alternativ 811 158 653 19.5
Alt (Major-form) 618 99 519 16.0
Alt (Medelform) 170 39 131 22.9
Alt (Minor-form) 23 20 3 87.0
typer av exoner . totalt # . # misslyckas . # passera . % misslyckas .
Konstitutiv 10 524 1017 9507 9.7
Alternativ 811 158 653 19.5
Alt (Major-form) 618 99 519 16.0
Alt (Medelform) 170 39 131 22.9
Alt (Minor-form) 23 20 3 87.0

författarna tackar Anton Nekrutenko för att ha läst vårt manuskript och för de hjälpsamma kommentarerna. Detta arbete stöddes av NIH Grant U54-RR021813, en lärare-Scholar award till C. J. L. från Dreyfus Foundation, en doe grant DE-FC02-02ER63421. YX stöds av en Ph.D. disputation fellowship från UCLA.

intressekonflikt: ingen deklarerad.

Boue, S., et al.

2003

alternativ splitsning och evolution.

Biouppsatser
25
1031

-1034

Filip, L. C. Och Mundy, N. I.

2004

snabb utveckling genom positivt Darwinistiskt urval i den extracellulära domänen för det rikliga lymfocytproteinet CD45 i primater.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J., et al.

2004

en konformationsbrytare i Piccolo C2A-domänen reglerad av alternativ skarvning.

Nat. Struct. Mol. Biol.
11
45

-53

Hurst, L. D. och Pal, C.

2001

bevis för renande urval som verkar på tysta platser i BRCA1.

Trender Genet.
17
62

-65

Iida, K. och Akashi, H.

2000

ett test av translationell selektion på ’tysta’ platser i det mänskliga genomet: baskomposition jämförelser i alternativt skarvade gener.

Gen
261
93

-105

Johnson, J. M., et al.

2003

Genomomfattande undersökning av humant alternativ pre-mRNA-skarvning med exon junction-mikroarrayer.

vetenskap
302
2141

-2144

Kellis, M., et al.

2003

sekvensering och jämförelse av jästarter för att identifiera gener och reglerande element.

Natur
423
241

-254

Lareau, L. F., et al.

2004

de utvecklande rollerna för alternativ skarvning.

Curr. Opin. Struct. Biol.
14
273

-282

Lewis, B. P., et al.

2003

bevis för den utbredda kopplingen av alternativ skarvning och nonsensmedierad mRNA-sönderfall hos människor.

Proc. Natl Acad. Sci. USA
100
189

-192

Miller, W., et al.

2004

jämförande genomik.

år. Rev. Genomics Hum. Genet.
5
15

-56

Modrek, B. Och Lee, C.

2002

en genomisk syn på alternativ skarvning.

Nat. Genet.
30
13

-19

Modrek, B. Och Lee, C.

2003

alternativ skarvning i människa -, mus-och råttgenom är förknippad med en ökad hastighet av exon skapande/förlust.

Nat. Genet.
34
177

-180

Modrek, B., et al.

2001

Genomomfattande analys av alternativ skarvning med användning av humana uttryckta sekvensdata.

nukleinsyror Res.
29
2850

-2859

Nekrutenko, A.

2004

förena siffrorna: ESTs kontra proteinkodande gener.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

K(A)/K (S) ratio test för att bedöma proteinkodningspotentialen i genomiska regioner: en empirisk och simuleringsstudie.

genomet Res.
12
198

-202

Nekrutenko, A., et al.

2003

etope: evolutionärt test av förutspådda exoner.

Nukleinsyror Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

ett evolutionärt tillvägagångssätt avslöjar en hög proteinkodningskapacitet hos det mänskliga genomet.

Trender Genet.
19
306

-310

Ohler, U., et al.

2005

erkännande av okända konserverade alternativt skarvade exoner.

PLoS Comp. Biol.
1
e15

Pan, Q., et al.

2004

Revealing globala regulatoriska egenskaper hos däggdjursalternativ Splitsning med hjälp av en kvantitativ mikroarrayplattform.

Mol. Cell.
16
929

-941

Philipps, D. L., et al.

2004

en beräknings-och experimentell metod mot a priori identifiering av alternativt skarvade exoner.

RNA
10
1838

-1844

Resch, A., et al.

2004

bevis för en subpopulation av konserverade alternativa skarvningshändelser under urvalstryck för bevarande av proteinläsningsram.

nukleinsyror Res.
32
1261

-1269

Sorek, R. och Ast, G.

2003

Introniska sekvenser som flankerar alternativt skarvade exoner bevaras mellan människa och mus.

genomet Res.
13
1631

-1637

Sorek, R. och säkrare, H. M.

2003

en ny algoritm för beräkningsidentifiering av förorenade est-bibliotek.

nukleinsyror Res.
31
1067

-1074

Sorek, R., et al.

2002

Alu-innehållande exoner är alternativt skarvade.

genomet Res.
12
1060

-1067

Sorek, R., et al.

2004

hur utbredd är funktionell alternativ Splitsning i det mänskliga genomet?

trender Genet
20
68

-71

Sorek, R., et al.

2004

en icke-EST-baserad metod för exon-hoppa förutsägelse.

genomet Res.
14
1617

-1623

Thompson, J. D., et al.

1994

CLUSTAL W: förbättra känsligheten för progressiv multipel sekvensinriktning genom sekvensviktning, positionsspecifika gapstraff och viktmatrisval.

Nukleinsyror Res.
22
4673

-4680

Xing, Y. och Lee, C.

2004

negativt selektionstryck mot för tidig proteinavkortning reduceras genom både alternativ splitsning och diploidi.

Trender Genet.
20
472

-475

Yang, Z.

1997

PAML: ett programpaket för fylogenetisk analys med maximal sannolikhet.

dator. Appl. Biosci.
13
555

-556

Yeo, G. W., et al.

2005

identifiering och analys av alternativa skarvningshändelser bevarade hos människa och mus.

Proc. Natl Acad. Sci. USA
102
2850

-2855

Zhang, Z. och Gerstein, M.

2004

storskalig analys av pseudogener i det mänskliga genomet.

Curr. Opin. Genet. Dev.
14
328

–335

Lämna ett svar

Din e-postadress kommer inte publiceras.