Abstract
samenvatting: onlangs is de Ka / Ks ratio test, die het eiwitcodeerpotentieel van genomische regio ‘ s beoordeelt op basis van hun niet-synoniem voor synonieme divergentiesnelheden, voorgesteld en met succes gebruikt in genoomannotaties van eukaryoten. We voerden systematisch de Ka/Ks ratio test op 925 transcript-bevestigd alternatief gesplitste exonen in het menselijk genoom, die we beschrijven in dit manuscript. We ontdekten dat 22,3% van de evolutionair geconserveerde, alternatief gesplitste exons de Ka/Ks-ratio-test niet kan doorstaan, vergeleken met 9,8% voor constitutieve exons. Het vals-negatieve percentage was het hoogst (85,7%) voor exons met lage frequenties van transcript-inclusie. De Analyses van alternatief verbonden exons die door de opeenvolgingen van volledige lengte mRNA worden gesteund leverden gelijkaardige resultaten op, en bijna de helft van exons betrokken bij voorouderlijke alternatieve het verbinden gebeurtenissen kon deze test niet overgaan. Onze analyse suggereert een toekomstige richting om vergelijkende genomica-gebaseerde alternatieve splicing voorspellingen met de Ka/Ks ratio test in hogere eukaryoten met uitgebreide RNA alternatieve splicing op te nemen.
Contact:[email protected]
1 Inleiding
vergelijkende genomica heeft krachtige hulpmiddelen geleverd voor annotaties van eukaryotische genomen (Kellis et al., 2003). In een baanbrekende studie, Nekrutenko et al. (2002) stelde de ‘Ka/Ks ratio test’ voor om het eiwitcoderingspotentieel van voorspelde exonen te beoordelen. Deze test is gebaseerd op de veronderstelling dat de meerderheid van eiwit-codeert gebieden in het menselijke genoom onder sterke zuiverende selectie tijdens evolutie zijn. Als gevolg hiervan overschrijden hun tarieven van synonieme divergentie (Ks) de tarieven van niet-synonieme divergentie (Ka) aanzienlijk, wat Ka/Ks–verhoudingen oplevert van veel minder dan één in mens-muis orthologe sequentievergelijkingen. Op een monster van 1244 exonen uit 153 eiwitcoderende genen, gaf de Ka/Ks ratio test een 8% vals-negatief percentage en een <5% vals-positief percentage voor interne exonen, een nauwkeurigheid die beter was dan de meeste van de genvoorspellingsinstrumenten (Nekrutenko et al., 2002). Sinds zijn introductie, is de Ka / Ks-verhoudingstest wijd en met succes gebruikt voor het verbeteren van de annotaties van menselijke en andere zoogdiergenomen (Miller et al., 2004; Nekrutenko, 2004; nekrutenko et al., 2003b; Zhang and Gerstein, 2004).
een nieuwe Vraag over de Ka / Ks-ratio-test heeft betrekking op alternatief gesplitste exonen in de eukaryotische genomen. De recente studies van uitgedrukte opeenvolgingen en microarray gegevens hebben aangetoond dat het alternatieve verbinden een wijdverspreid mechanisme van genregulatie in hogere eukaryotes is (Lareau et al., 2004; Modrek and Lee, 2002). Tot driekwart van de menselijke codeergenen ondergaan alternatieve splicing (Johnson et al., 2003). Er is overvloedig bewijs dat suggereert dat alternatieve splicing wordt geassocieerd met relaxaties van selectiedruk tijdens evolutie (Boue et al., 2003). Alternatieve splicing wordt bijvoorbeeld geassocieerd met een versneld tempo van exon creatie en verlies (Modrek and Lee, 2003), nieuwe exon originaties van Alu elementen (Sorek et al., 2002), tolerance of premature termination codons (Lewis et al., 2003; Xing and Lee, 2004), enzovoort. Iida en Akashi (2000) onderzochten de opeenvolgingsdivergentiepatronen van 110 als alternatief gesplitste eiwitcoderende genen van mens en Drosophila, en vonden dat als alternatief gesplitste gebieden van deze genen hogere Ka/Ks-waarden hadden vergeleken met constitutieve gebieden. Andere voorbeelden van verhoogde Ka/Ks in alternatief gesplitste exons zijn ook gemeld (Filip and Mundy, 2004; Hurst and Pal, 2001). Deze waarnemingen doen een vraag rijzen met betrekking tot de afwijking van de Ka/Ks-ratio-test tussen alternatief gesplitste exons.
2 methoden
we identificeerden alternatief gesplitste exonen door de sequenties van de mens tot expressie te brengen op het menselijk genoom (Modrek et al., 2001). Om de mate van alternatieve splicing voor elk alternatief spliced exon te kwantificeren, gebruikten we een standaardmetrie van alternatieve splicing—het exon-inclusieniveau, gedefinieerd als het aantal ESTs dat een exon omvatte gedeeld door het totale aantal ESTs dat dit exon omvatte of oversloeg. Op basis van hun insluitingsniveau hebben we exons onderverdeeld in drie klassen: majeur-vorm (>2/3), middel-vorm (tussen 1/3 en 2/3) en mineur-vorm (<1/3).
we identificeerden de orthologe exonsequentie voor elk menselijk exon in de genomische sequentie van de muis ortholog, zoals eerder beschreven (Modrek and Lee, 2003). Voor elk mens-muis orthologe exon-sequentiepaar voerden we de Ka/Ks-ratio-test uit volgens het protocol van Nekrutenko et al. (2003a). Kort, orthologe exon sequenties van mens en muis werden vertaald en vervolgens uitgelijnd met behulp van CLUSTALW Thompson et al., 1994 onder standaard parameters. Deze eiwitaanpassing werd gebruikt om een aanpassing van overeenkomstige nucleotideopeenvolgingen te zaaien, en hiaten in de aanpassing werden bijgesneden. We schatten het aantal synonieme en niet-synonieme substituties/sites met behulp van de Yang–Nielsen schattingen van het yn00 programma van het PAML pakket (PAML 3.14) (Yang, 1997). We bouwden een 2 × 2 contingency table met behulp van de aantallen veranderde en onveranderde synonieme/niet-synonieme sites, en testten of de Ka/Ks-verhouding significant <1 was met behulp van de exacte test van Fisher. We definieerden een exon als geslaagd voor de Ka / Ks ratio test als Zijn Ka / Ks significant <1 was bij het P < 0,05 niveau.
3 Resultaten en discussie
we stelden een lijst samen van 925 humane, alternatief gesplitste exonen die bewaard werden tussen het genomen van mensen en muizen, gebaseerd op analyses van menselijke expressie sequenties (Modrek et al., 2001). We hebben ook een lijst samengesteld van 10 996 menselijke constitutieve exons als controle. Al deze exons waren interne exons geflankeerd door introns aan beide uiteinden. We voerden de Ka / Ks ratio tests op deze exons volgens het protocol van (Nekrutenko et al., 2003a) (Zie sectie methoden). Van de constitutieve exons 9.8% slaagde niet voor de Ka / Ks ratio test, een ratio vergelijkbaar met wat werd gemeld door de initiële studie (8%) (Nekrutenko et al., 2002) (Tabel 1). Daarentegen kon 22,3% van de alternatief gesplitste exons die werden getest, de Ka/Ks-ratio test niet doorstaan, een meer dan 2-voudige toename in vergelijking met constitutieve exons. Omdat als alternatief gesplitste exons met verschillende exon-insluitingsniveaus (zie definities in de sectie methoden) verschillende patronen van evolutionaire divergentie vertoonden (Modrek and Lee, 2003; Pan et al., 2004, we verdeelden de 925 alternatief gesplitste exons in drie klassen op basis van hun exon inclusie niveaus (zie methoden sectie). De fractie van exons die de test niet voldeden was 16,0% voor exons in de hoofdvorm, en steeg tot 85,7% voor alternatieve exons in de minor-vorm (opgenomen <1/3 in de transcripten). Omdat alternatief gesplitste exons gemiddeld korter waren, verdeelden we exons ook op basis van hun grootte (Fig. 1). In zowel constitutieve als alternatief gesplitste exons waren de fracties die niet aan de test voldeden hoger voor kortere exons, in overeenstemming met de oorspronkelijke studie Nekrutenko et al., 2002. De fractie was echter consistent hoger in alternatief gesplitste exonen na controle voor exongroottes (b. v. 5,4% voor constitutieve exonen en 16,6% voor alternatief gesplitste exonen tussen 101 en 150 nt; Fig. 1). Analyses van muizen als alternatief gesplitste exonen in een muis–mens vergelijking leverden vergelijkbare resultaten op (gegevens niet getoond).
ons resultaat geeft aan dat een significant hogere fractie van alternatief gesplitste exonen in het menselijk genoom de Ka/Ks-ratio-test niet kan doorstaan. Dit vertaalt zich echter niet onmiddellijk in een verhoogd vals-negatief percentage van de Ka/Ks-ratio-test in alternatief gesplitste exons, aangezien andere interpretaties mogelijk zijn. Impliceren deze gegevens eigenlijk dat een aanzienlijk aantal alternatief gesplitste exonen die in de menselijke est-sequenties worden waargenomen, geen echte exonen vertegenwoordigen, maar wel afkomstig zijn van artefacten in de Est-gegevens (bv. zeldzame spliceosomale fouten) (Modrek and Lee, 2002; Sorek and Safer, 2003)? Deze verklaring lijkt in het bijzonder aannemelijk voor exonen in kleine vorm (die in een kleine fractie van Est-sequenties worden waargenomen). Om deze mogelijkheid te testen, analyseerden wij een subset van alternatief gesplitste exons die door volledige opeenvolgingen van mRNA werden gesteund. We hebben vergelijkbare fracties van alternatief gesplitste exonen waargenomen die niet aan de Ka/Ks-ratio-test voldeden (Tabel 2). Daarom kunnen valse exons afkomstig van Est artefacten onze gegevens niet verklaren. Vertegenwoordigen alternatief gesplitste exons die niet voldoen aan de Ka/Ks-ratio-test grotendeels niet-functionele lasvormen? Om deze vraag te beantwoorden, beperkten we onze Analyse tot een set van 120 exons die alternatief werden gesplitst in zowel menselijke als muistranscriptomen. Een dergelijk patroon van ‘voorouderlijke alternatieve splicing’ werd algemeen aangenomen als een criterium voor functionele alternatieve splicing gebeurtenissen (Resch et al., 2004; Sorek et al., 2004a). In deze exons kon een nog hoger 49,2% (versus 22,3% van alle alternatief gesplitste exons) de Ka/Ks-ratio-test niet doorstaan (Tabel 1), in overeenstemming met een ander recent onderzoek naar dergelijke exons (Ohler et al., 2005). Daarom kan de hypothese voor niet-functionele splice vormen onze gegevens ook niet verklaren. Om de potentiële invloed van CpG-eilanden uit te sluiten, berekenden we de frequentie van CpG over GpC in elk exon en beperkten we onze Analyse tot een subset van alternatief gesplitste exonen waarvan de CpG/GpC-verhoudingen <0,8 waren (Iida en Akashi, 2000). Van deze exons kon 20,8% deze test niet doorstaan, vergelijkbaar met het percentage voor de totale set van alternatief gesplitste exons (Tabel 1). Hoewel in principe een verhoogde ka / Ks ratio verschillende onderliggende mechanismen zou kunnen weerspiegelen , wat niet de focus van dit manuscript is, geven onze controleanalyses wel aan dat een groot deel van functionele alternatieve exonen in het menselijk genoom de Ka/Ks ratio test niet haalt.
constitutieve exonen overtreffen het aantal alternatief gesplitste exonen in de meeste eiwitcoderende genen. Aangezien in veel organismen transcript sequence coverage (bijvoorbeeld ESTs) nog steeds vrij laag is, is de Ka/Ks ratio test een krachtig hulpmiddel voor het verfijnen van computationele genstructuur voorspellingen. Nochtans, wordt de meerderheid van zoogdiereiwit-codeert genen alternatief verbonden, en een klein aantal alternatief verbonden exons zou diepgaande functionele en regelgevende gevolgen kunnen hebben, zoals onlangs door het alternatieve verbinden van het C2A domein van Piccolo (Garcia et al., 2004) en vele anderen. Onze analyse suggereert dat bij organismen met uitgebreide alternatieve splicing (bijvoorbeeld zoogdieren) het de voorkeur verdient om de Ka/Ks ratio test te combineren met andere maatstaven die de waarschijnlijkheid van alternatieve splicing aangeven. Gelukkig heeft evolutionaire genomica ook licht werpen op de typische eigenschappen van functionele alternatief gesplitste exons, die met succes zijn gebruikt in voorspellingen (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Dergelijke informatie kan met de Ka/Ks-ratio-test worden geïntegreerd voor een nauwkeurigere beoordeling van eiwitcodeerpotentiëlen van genomische regio ‘ s.
de Ka / Ks-ratio-test op constitutieve en als alternatief gesplitste exons met verschillende afmetingen. (A) constitutieve exons en (B) alternatief gesplitste exons.
de Ka / Ks-ratio-test op constitutieve en als alternatief gesplitste exons met verschillende afmetingen. (A) constitutieve exons en (B) alternatief gesplitste exons.
Exons die de Ka/Ks-ratio-test doorstaan of niet halen
soorten exons . | totaal # . | gemiddelde lengte (bp). | # Fail . | # pas . | % falen . | gemiddelde (mediaan) Ka / Ks . |
---|---|---|---|---|---|---|
Constitutieve | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternatief | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Grote-vorm) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
soorten exons . | totaal # . | gemiddelde lengte (bp). | # Fail . | # pas . | % falen . | gemiddelde (mediaan) Ka / Ks . |
---|---|---|---|---|---|---|
constitutief | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternatief | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Grote-vorm) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-vorm) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-vorm) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Voorouderlijke Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exons die geslaagd of niet Ka/Ks ratio test
Soorten exons . | totaal # . | gemiddelde lengte (bp). | # Fail . | # pas . | % falen . | gemiddelde (mediaan) Ka / Ks . |
---|---|---|---|---|---|---|
Constitutieve | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternatief | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Grote-vorm) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
soorten exons . | totaal # . | gemiddelde lengte (bp). | # Fail . | # pas . | % falen . | gemiddelde (mediaan) Ka / Ks . |
---|---|---|---|---|---|---|
constitutief | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternatief | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (Grote-vorm) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-vorm) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-vorm) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Voorouderlijke Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exons ondersteund door menselijke mrna-kandidaten die slagen of mislukken van de Ka/Ks ratio test
Soorten exons . | totaal # . | # Fail . | # pas . | % falen . |
---|---|---|---|---|
Constitutieve | 10 524 | 1017 | 9507 | 9.7 |
Alternatief | 811 | 158 | 653 | 19.5 |
Alt (Grote-vorm) | 618 | 99 | 519 | 16.0 |
Alt (Medium-vorm) | 170 | 39 | 131 | 22.9 |
Alt (Minor-vorm) | 23 | 20 | 3 | 87.0 |
soorten exons . | totaal # . | # Fail . | # pas . | % falen . |
---|---|---|---|---|
Constitutieve | 10 524 | 1017 | 9507 | 9.7 |
Alternatief | 811 | 158 | 653 | 19.5 |
Alt (Grote-vorm) | 618 | 99 | 519 | 16.0 |
Alt (Medium-vorm) | 170 | 39 | 131 | 22.9 |
Alt (Minor-vorm) | 23 | 20 | 3 | 87.0 |
Exons ondersteund door menselijke mrna-kandidaten die slagen of mislukken van de Ka/Ks ratio test
Soorten exons . | totaal # . | # Fail . | # pas . | % falen . |
---|---|---|---|---|
Constitutieve | 10 524 | 1017 | 9507 | 9.7 |
Alternatief | 811 | 158 | 653 | 19.5 |
Alt (Grote-vorm) | 618 | 99 | 519 | 16.0 |
Alt (Medium-vorm) | 170 | 39 | 131 | 22.9 |
Alt (Minor-vorm) | 23 | 20 | 3 | 87.0 |
soorten exons . | totaal # . | # Fail . | # pas . | % falen . |
---|---|---|---|---|
Constitutieve | 10 524 | 1017 | 9507 | 9.7 |
Alternatief | 811 | 158 | 653 | 19.5 |
Alt (Grote-vorm) | 618 | 99 | 519 | 16.0 |
Alt (Medium-vorm) | 170 | 39 | 131 | 22.9 |
Alt (Minor-vorm) | 23 | 20 | 3 | 87.0 |
De auteurs danken Anton Nekrutenko voor het lezen van onze manuscript en voor de nuttige reacties. Dit werk werd ondersteund door NIH Grant U54-RR021813, een leraar-Scholar award aan C. J. L. van de Dreyfus Foundation, een DOE grant DE-FC02-02ER63421. Y. X. wordt ondersteund door een Ph.D. dissertation fellowship van UCLA.
belangenconflict: geen gedeclareerd.
Boue, S., et al.
alternatieve splicing en evolutie.
-1034
Filip, L. C. en Mundy, N. I.
snelle evolutie door positieve Darwinistische selectie in het extracellulaire domein van het overvloedige lymfocyt-eiwit CD45 bij primaten.
-1511
Garcia, J., et al.
een conformationele schakelaar in het Piccolo C2A domein gereguleerd door alternatieve splicing.
-53
Hurst, L. D. en Pal, C.
bewijs voor het zuiveren van selectie op Stille locaties in BRCA1.
-65
Iida, K. En Akashi, H.
een test van translationele selectie op ‘stille’ plaatsen in het menselijk genoom: vergelijking van de basesamenstelling In alternatief gesplitste genen.
-105
Johnson, J. M., et al.
genoom-breed onderzoek van menselijk alternatief pre-mRNA verbinden met exon junction microarrays.
-2144
Kellis, M., et al.
het rangschikken en de vergelijking van gistspecies om genen en regelgevende elementen te identificeren.
-254
Lareau, L. F., et al.
de evoluerende rollen van alternatieve splicing.
-282
Lewis, B. P., et al.
bewijs voor de wijdverspreide koppeling van het alternatieve verbinden en nonsens-bemiddelde mRNA verval in mensen.
-192
Miller, W., et al.
vergelijkende genomica.
-56
Modrek, B. En Lee, C.
een genomische kijk op alternatieve splicing.
-19
Modrek, B. En Lee, C.
alternatieve splicing in de genomen van de mens, muis en rat wordt geassocieerd met een verhoogd tarief van exon creatie/verlies.
-180
Modrek, B., et al.
genoom – brede analyse van alternatieve splicing gebruikend menselijke uitgedrukte opeenvolgingsgegevens.
-2859
Nekrutenko, A.
het verzoenen van de getallen: ESTs versus eiwitcoderende genen.
-1282
Nekrutenko, A., et al.
de K(A)/K (S) ratio test voor het beoordelen van het eiwitcodeerpotentieel van genomische regio ‘ s: een empirische en simulatie studie.
-202
Nekrutenko, A., et al.
ETOPE: evolutionaire test van voorspelde exons.
-3567
Nekrutenko, A., et al.
een evolutionaire benadering onthult een hoge eiwit-codeercapaciteit van het menselijke genoom.
-310
Ohler, U., et al.
herkenning van onbekende behouden alternatief gesplitste exons.
Pan, Q., et al.
onthullend globale regelgevende eigenschappen van zoogdier het alternatieve verbinden gebruikend een kwantitatief microarray platform.
-941
Philipps, D. L., et al.
een computationele en experimentele benadering van a priori identificatie van alternatief gesplitste exonen.
-1844
Resch, A., et al.
bewijs voor een subpopulatie van geconserveerde alternatieve splicing gebeurtenissen onder selectiedruk voor eiwit lezen frame behoud.
-1269
Sorek, R. en Ast, G.
Intronische sequenties flankerend alternatief gesplitste exons worden bewaard tussen mens en muis.
-1637
Sorek, R. en veiliger, H. M.
een nieuw algoritme voor computationele identificatie van verontreinigde est bibliotheken.
-1074
Sorek, R., et al.
aluminium bevattende exons worden als alternatief gesplitst.
-1067
Sorek, R., et al.
hoe wijdverspreid is functioneel alternatief splicing in het menselijk genoom?
-71
Sorek, R., et al.
een niet-EST-gebaseerde methode voor exon-overslaan voorspelling.
-1623
Thompson, J. D., et al.
CLUSTAL W: verbetering van de gevoeligheid van progressieve meervoudige sequentieuitlijning door middel van sequentieweging, positie-specifieke gap penalty ‘ s en gewicht matrix keuze.
-4680
Xing, Y. en Lee, C.
negatieve selectiedruk tegen voortijdige eiwitafbraak wordt verminderd door zowel alternatieve splicing als diploïdie.
-475
Yang, Z.
PAML: een programmapakket voor fylogenetische analyse op basis van maximale waarschijnlijkheid.
-556
Yeo, G. W., et al.
identificatie en analyse van alternatieve splicing gebeurtenissen bewaard bij mens en muis.
-2855
Zhang, Z. En Gerstein, M.
grootschalige analyse van pseudogenes in het menselijk genoom.
–335