Assessing the application of Ka/Ks ratio test to alternative spliced exons / Bioinformatics

Abstract

samenvatting: onlangs is de Ka / Ks ratio test, die het eiwitcodeerpotentieel van genomische regio ‘ s beoordeelt op basis van hun niet-synoniem voor synonieme divergentiesnelheden, voorgesteld en met succes gebruikt in genoomannotaties van eukaryoten. We voerden systematisch de Ka/Ks ratio test op 925 transcript-bevestigd alternatief gesplitste exonen in het menselijk genoom, die we beschrijven in dit manuscript. We ontdekten dat 22,3% van de evolutionair geconserveerde, alternatief gesplitste exons de Ka/Ks-ratio-test niet kan doorstaan, vergeleken met 9,8% voor constitutieve exons. Het vals-negatieve percentage was het hoogst (85,7%) voor exons met lage frequenties van transcript-inclusie. De Analyses van alternatief verbonden exons die door de opeenvolgingen van volledige lengte mRNA worden gesteund leverden gelijkaardige resultaten op, en bijna de helft van exons betrokken bij voorouderlijke alternatieve het verbinden gebeurtenissen kon deze test niet overgaan. Onze analyse suggereert een toekomstige richting om vergelijkende genomica-gebaseerde alternatieve splicing voorspellingen met de Ka/Ks ratio test in hogere eukaryoten met uitgebreide RNA alternatieve splicing op te nemen.

Contact:[email protected]

1 Inleiding

vergelijkende genomica heeft krachtige hulpmiddelen geleverd voor annotaties van eukaryotische genomen (Kellis et al., 2003). In een baanbrekende studie, Nekrutenko et al. (2002) stelde de ‘Ka/Ks ratio test’ voor om het eiwitcoderingspotentieel van voorspelde exonen te beoordelen. Deze test is gebaseerd op de veronderstelling dat de meerderheid van eiwit-codeert gebieden in het menselijke genoom onder sterke zuiverende selectie tijdens evolutie zijn. Als gevolg hiervan overschrijden hun tarieven van synonieme divergentie (Ks) de tarieven van niet-synonieme divergentie (Ka) aanzienlijk, wat Ka/Ks–verhoudingen oplevert van veel minder dan één in mens-muis orthologe sequentievergelijkingen. Op een monster van 1244 exonen uit 153 eiwitcoderende genen, gaf de Ka/Ks ratio test een 8% vals-negatief percentage en een <5% vals-positief percentage voor interne exonen, een nauwkeurigheid die beter was dan de meeste van de genvoorspellingsinstrumenten (Nekrutenko et al., 2002). Sinds zijn introductie, is de Ka / Ks-verhoudingstest wijd en met succes gebruikt voor het verbeteren van de annotaties van menselijke en andere zoogdiergenomen (Miller et al., 2004; Nekrutenko, 2004; nekrutenko et al., 2003b; Zhang and Gerstein, 2004).

een nieuwe Vraag over de Ka / Ks-ratio-test heeft betrekking op alternatief gesplitste exonen in de eukaryotische genomen. De recente studies van uitgedrukte opeenvolgingen en microarray gegevens hebben aangetoond dat het alternatieve verbinden een wijdverspreid mechanisme van genregulatie in hogere eukaryotes is (Lareau et al., 2004; Modrek and Lee, 2002). Tot driekwart van de menselijke codeergenen ondergaan alternatieve splicing (Johnson et al., 2003). Er is overvloedig bewijs dat suggereert dat alternatieve splicing wordt geassocieerd met relaxaties van selectiedruk tijdens evolutie (Boue et al., 2003). Alternatieve splicing wordt bijvoorbeeld geassocieerd met een versneld tempo van exon creatie en verlies (Modrek and Lee, 2003), nieuwe exon originaties van Alu elementen (Sorek et al., 2002), tolerance of premature termination codons (Lewis et al., 2003; Xing and Lee, 2004), enzovoort. Iida en Akashi (2000) onderzochten de opeenvolgingsdivergentiepatronen van 110 als alternatief gesplitste eiwitcoderende genen van mens en Drosophila, en vonden dat als alternatief gesplitste gebieden van deze genen hogere Ka/Ks-waarden hadden vergeleken met constitutieve gebieden. Andere voorbeelden van verhoogde Ka/Ks in alternatief gesplitste exons zijn ook gemeld (Filip and Mundy, 2004; Hurst and Pal, 2001). Deze waarnemingen doen een vraag rijzen met betrekking tot de afwijking van de Ka/Ks-ratio-test tussen alternatief gesplitste exons.

2 methoden

we identificeerden alternatief gesplitste exonen door de sequenties van de mens tot expressie te brengen op het menselijk genoom (Modrek et al., 2001). Om de mate van alternatieve splicing voor elk alternatief spliced exon te kwantificeren, gebruikten we een standaardmetrie van alternatieve splicing—het exon-inclusieniveau, gedefinieerd als het aantal ESTs dat een exon omvatte gedeeld door het totale aantal ESTs dat dit exon omvatte of oversloeg. Op basis van hun insluitingsniveau hebben we exons onderverdeeld in drie klassen: majeur-vorm (>2/3), middel-vorm (tussen 1/3 en 2/3) en mineur-vorm (<1/3).

we identificeerden de orthologe exonsequentie voor elk menselijk exon in de genomische sequentie van de muis ortholog, zoals eerder beschreven (Modrek and Lee, 2003). Voor elk mens-muis orthologe exon-sequentiepaar voerden we de Ka/Ks-ratio-test uit volgens het protocol van Nekrutenko et al. (2003a). Kort, orthologe exon sequenties van mens en muis werden vertaald en vervolgens uitgelijnd met behulp van CLUSTALW Thompson et al., 1994 onder standaard parameters. Deze eiwitaanpassing werd gebruikt om een aanpassing van overeenkomstige nucleotideopeenvolgingen te zaaien, en hiaten in de aanpassing werden bijgesneden. We schatten het aantal synonieme en niet-synonieme substituties/sites met behulp van de Yang–Nielsen schattingen van het yn00 programma van het PAML pakket (PAML 3.14) (Yang, 1997). We bouwden een 2 × 2 contingency table met behulp van de aantallen veranderde en onveranderde synonieme/niet-synonieme sites, en testten of de Ka/Ks-verhouding significant <1 was met behulp van de exacte test van Fisher. We definieerden een exon als geslaagd voor de Ka / Ks ratio test als Zijn Ka / Ks significant <1 was bij het P < 0,05 niveau.

3 Resultaten en discussie

we stelden een lijst samen van 925 humane, alternatief gesplitste exonen die bewaard werden tussen het genomen van mensen en muizen, gebaseerd op analyses van menselijke expressie sequenties (Modrek et al., 2001). We hebben ook een lijst samengesteld van 10 996 menselijke constitutieve exons als controle. Al deze exons waren interne exons geflankeerd door introns aan beide uiteinden. We voerden de Ka / Ks ratio tests op deze exons volgens het protocol van (Nekrutenko et al., 2003a) (Zie sectie methoden). Van de constitutieve exons 9.8% slaagde niet voor de Ka / Ks ratio test, een ratio vergelijkbaar met wat werd gemeld door de initiële studie (8%) (Nekrutenko et al., 2002) (Tabel 1). Daarentegen kon 22,3% van de alternatief gesplitste exons die werden getest, de Ka/Ks-ratio test niet doorstaan, een meer dan 2-voudige toename in vergelijking met constitutieve exons. Omdat als alternatief gesplitste exons met verschillende exon-insluitingsniveaus (zie definities in de sectie methoden) verschillende patronen van evolutionaire divergentie vertoonden (Modrek and Lee, 2003; Pan et al., 2004, we verdeelden de 925 alternatief gesplitste exons in drie klassen op basis van hun exon inclusie niveaus (zie methoden sectie). De fractie van exons die de test niet voldeden was 16,0% voor exons in de hoofdvorm, en steeg tot 85,7% voor alternatieve exons in de minor-vorm (opgenomen <1/3 in de transcripten). Omdat alternatief gesplitste exons gemiddeld korter waren, verdeelden we exons ook op basis van hun grootte (Fig. 1). In zowel constitutieve als alternatief gesplitste exons waren de fracties die niet aan de test voldeden hoger voor kortere exons, in overeenstemming met de oorspronkelijke studie Nekrutenko et al., 2002. De fractie was echter consistent hoger in alternatief gesplitste exonen na controle voor exongroottes (b. v. 5,4% voor constitutieve exonen en 16,6% voor alternatief gesplitste exonen tussen 101 en 150 nt; Fig. 1). Analyses van muizen als alternatief gesplitste exonen in een muis–mens vergelijking leverden vergelijkbare resultaten op (gegevens niet getoond).

ons resultaat geeft aan dat een significant hogere fractie van alternatief gesplitste exonen in het menselijk genoom de Ka/Ks-ratio-test niet kan doorstaan. Dit vertaalt zich echter niet onmiddellijk in een verhoogd vals-negatief percentage van de Ka/Ks-ratio-test in alternatief gesplitste exons, aangezien andere interpretaties mogelijk zijn. Impliceren deze gegevens eigenlijk dat een aanzienlijk aantal alternatief gesplitste exonen die in de menselijke est-sequenties worden waargenomen, geen echte exonen vertegenwoordigen, maar wel afkomstig zijn van artefacten in de Est-gegevens (bv. zeldzame spliceosomale fouten) (Modrek and Lee, 2002; Sorek and Safer, 2003)? Deze verklaring lijkt in het bijzonder aannemelijk voor exonen in kleine vorm (die in een kleine fractie van Est-sequenties worden waargenomen). Om deze mogelijkheid te testen, analyseerden wij een subset van alternatief gesplitste exons die door volledige opeenvolgingen van mRNA werden gesteund. We hebben vergelijkbare fracties van alternatief gesplitste exonen waargenomen die niet aan de Ka/Ks-ratio-test voldeden (Tabel 2). Daarom kunnen valse exons afkomstig van Est artefacten onze gegevens niet verklaren. Vertegenwoordigen alternatief gesplitste exons die niet voldoen aan de Ka/Ks-ratio-test grotendeels niet-functionele lasvormen? Om deze vraag te beantwoorden, beperkten we onze Analyse tot een set van 120 exons die alternatief werden gesplitst in zowel menselijke als muistranscriptomen. Een dergelijk patroon van ‘voorouderlijke alternatieve splicing’ werd algemeen aangenomen als een criterium voor functionele alternatieve splicing gebeurtenissen (Resch et al., 2004; Sorek et al., 2004a). In deze exons kon een nog hoger 49,2% (versus 22,3% van alle alternatief gesplitste exons) de Ka/Ks-ratio-test niet doorstaan (Tabel 1), in overeenstemming met een ander recent onderzoek naar dergelijke exons (Ohler et al., 2005). Daarom kan de hypothese voor niet-functionele splice vormen onze gegevens ook niet verklaren. Om de potentiële invloed van CpG-eilanden uit te sluiten, berekenden we de frequentie van CpG over GpC in elk exon en beperkten we onze Analyse tot een subset van alternatief gesplitste exonen waarvan de CpG/GpC-verhoudingen <0,8 waren (Iida en Akashi, 2000). Van deze exons kon 20,8% deze test niet doorstaan, vergelijkbaar met het percentage voor de totale set van alternatief gesplitste exons (Tabel 1). Hoewel in principe een verhoogde ka / Ks ratio verschillende onderliggende mechanismen zou kunnen weerspiegelen , wat niet de focus van dit manuscript is, geven onze controleanalyses wel aan dat een groot deel van functionele alternatieve exonen in het menselijk genoom de Ka/Ks ratio test niet haalt.

constitutieve exonen overtreffen het aantal alternatief gesplitste exonen in de meeste eiwitcoderende genen. Aangezien in veel organismen transcript sequence coverage (bijvoorbeeld ESTs) nog steeds vrij laag is, is de Ka/Ks ratio test een krachtig hulpmiddel voor het verfijnen van computationele genstructuur voorspellingen. Nochtans, wordt de meerderheid van zoogdiereiwit-codeert genen alternatief verbonden, en een klein aantal alternatief verbonden exons zou diepgaande functionele en regelgevende gevolgen kunnen hebben, zoals onlangs door het alternatieve verbinden van het C2A domein van Piccolo (Garcia et al., 2004) en vele anderen. Onze analyse suggereert dat bij organismen met uitgebreide alternatieve splicing (bijvoorbeeld zoogdieren) het de voorkeur verdient om de Ka/Ks ratio test te combineren met andere maatstaven die de waarschijnlijkheid van alternatieve splicing aangeven. Gelukkig heeft evolutionaire genomica ook licht werpen op de typische eigenschappen van functionele alternatief gesplitste exons, die met succes zijn gebruikt in voorspellingen (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Dergelijke informatie kan met de Ka/Ks-ratio-test worden geïntegreerd voor een nauwkeurigere beoordeling van eiwitcodeerpotentiëlen van genomische regio ‘ s.

Fig. 1

de Ka / Ks-ratio-test op constitutieve en als alternatief gesplitste exons met verschillende afmetingen. (A) constitutieve exons en (B) alternatief gesplitste exons.

Fig. 1

de Ka / Ks-ratio-test op constitutieve en als alternatief gesplitste exons met verschillende afmetingen. (A) constitutieve exons en (B) alternatief gesplitste exons.

Tabel 1

Exons die de Ka/Ks-ratio-test doorstaan of niet halen

soorten exons . totaal # . gemiddelde lengte (bp). # Fail . # pas . % falen . gemiddelde (mediaan) Ka / Ks .
Constitutieve 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternatief 925 122 206 719 22.3 0.199 (0.094)
Alt (Grote-vorm) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
soorten exons . totaal # . gemiddelde lengte (bp). # Fail . # pas . % falen . gemiddelde (mediaan) Ka / Ks .
constitutief 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternatief 925 122 206 719 22.3 0.199 (0.094)
Alt (Grote-vorm) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-vorm) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-vorm) 42 81 36 6 85.7 0.649 (0.410)
Voorouderlijke Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabel 1

Exons die geslaagd of niet Ka/Ks ratio test

Soorten exons . totaal # . gemiddelde lengte (bp). # Fail . # pas . % falen . gemiddelde (mediaan) Ka / Ks .
Constitutieve 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternatief 925 122 206 719 22.3 0.199 (0.094)
Alt (Grote-vorm) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
soorten exons . totaal # . gemiddelde lengte (bp). # Fail . # pas . % falen . gemiddelde (mediaan) Ka / Ks .
constitutief 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternatief 925 122 206 719 22.3 0.199 (0.094)
Alt (Grote-vorm) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-vorm) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-vorm) 42 81 36 6 85.7 0.649 (0.410)
Voorouderlijke Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabel 2

Exons ondersteund door menselijke mrna-kandidaten die slagen of mislukken van de Ka/Ks ratio test

Soorten exons . totaal # . # Fail . # pas . % falen .
Constitutieve 10 524 1017 9507 9.7
Alternatief 811 158 653 19.5
Alt (Grote-vorm) 618 99 519 16.0
Alt (Medium-vorm) 170 39 131 22.9
Alt (Minor-vorm) 23 20 3 87.0
soorten exons . totaal # . # Fail . # pas . % falen .
Constitutieve 10 524 1017 9507 9.7
Alternatief 811 158 653 19.5
Alt (Grote-vorm) 618 99 519 16.0
Alt (Medium-vorm) 170 39 131 22.9
Alt (Minor-vorm) 23 20 3 87.0
Tabel 2

Exons ondersteund door menselijke mrna-kandidaten die slagen of mislukken van de Ka/Ks ratio test

Soorten exons . totaal # . # Fail . # pas . % falen .
Constitutieve 10 524 1017 9507 9.7
Alternatief 811 158 653 19.5
Alt (Grote-vorm) 618 99 519 16.0
Alt (Medium-vorm) 170 39 131 22.9
Alt (Minor-vorm) 23 20 3 87.0
soorten exons . totaal # . # Fail . # pas . % falen .
Constitutieve 10 524 1017 9507 9.7
Alternatief 811 158 653 19.5
Alt (Grote-vorm) 618 99 519 16.0
Alt (Medium-vorm) 170 39 131 22.9
Alt (Minor-vorm) 23 20 3 87.0

De auteurs danken Anton Nekrutenko voor het lezen van onze manuscript en voor de nuttige reacties. Dit werk werd ondersteund door NIH Grant U54-RR021813, een leraar-Scholar award aan C. J. L. van de Dreyfus Foundation, een DOE grant DE-FC02-02ER63421. Y. X. wordt ondersteund door een Ph.D. dissertation fellowship van UCLA.

belangenconflict: geen gedeclareerd.

Boue, S., et al.

2003

alternatieve splicing en evolutie.

Bioessays
25
1031

-1034

Filip, L. C. en Mundy, N. I.

2004

snelle evolutie door positieve Darwinistische selectie in het extracellulaire domein van het overvloedige lymfocyt-eiwit CD45 bij primaten.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J., et al.

2004

een conformationele schakelaar in het Piccolo C2A domein gereguleerd door alternatieve splicing.

Nat. Struct. Mol. Biol.
11
45

-53

Hurst, L. D. en Pal, C.

2001

bewijs voor het zuiveren van selectie op Stille locaties in BRCA1.

Trends Genet.
17
62

-65

Iida, K. En Akashi, H.

2000

een test van translationele selectie op ‘stille’ plaatsen in het menselijk genoom: vergelijking van de basesamenstelling In alternatief gesplitste genen.

Gen
261
93

-105

Johnson, J. M., et al.

2003

genoom-breed onderzoek van menselijk alternatief pre-mRNA verbinden met exon junction microarrays.

wetenschap
302
2141

-2144

Kellis, M., et al.

2003

het rangschikken en de vergelijking van gistspecies om genen en regelgevende elementen te identificeren.

aard
423
241

-254

Lareau, L. F., et al.

2004

de evoluerende rollen van alternatieve splicing.

Curr. Opin. Struct. Biol.
14
273

-282

Lewis, B. P., et al.

2003

bewijs voor de wijdverspreide koppeling van het alternatieve verbinden en nonsens-bemiddelde mRNA verval in mensen.

Proc. Natl Acad. Sci. Verenigde Staten
100
189

-192

Miller, W., et al.

2004

vergelijkende genomica.

jaarlijks. Rev. Genomics Hum. Genet.
5
15

-56

Modrek, B. En Lee, C.

2002

een genomische kijk op alternatieve splicing.

Nat. Genet.
30
13

-19

Modrek, B. En Lee, C.

2003

alternatieve splicing in de genomen van de mens, muis en rat wordt geassocieerd met een verhoogd tarief van exon creatie/verlies.

Nat. Genet.
34
177

-180

Modrek, B., et al.

2001

genoom – brede analyse van alternatieve splicing gebruikend menselijke uitgedrukte opeenvolgingsgegevens.

nucleïnezuren res.
29
2850

-2859

Nekrutenko, A.

2004

het verzoenen van de getallen: ESTs versus eiwitcoderende genen.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

de K(A)/K (S) ratio test voor het beoordelen van het eiwitcodeerpotentieel van genomische regio ‘ s: een empirische en simulatie studie.

Genome res.
12
198

-202

Nekrutenko, A., et al.

2003

ETOPE: evolutionaire test van voorspelde exons.

Nucleïnezuren Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

een evolutionaire benadering onthult een hoge eiwit-codeercapaciteit van het menselijke genoom.

Trends Genet.
19
306

-310

Ohler, U., et al.

2005

herkenning van onbekende behouden alternatief gesplitste exons.

PLoS Comp. Biol.
1
e15

Pan, Q., et al.

2004

onthullend globale regelgevende eigenschappen van zoogdier het alternatieve verbinden gebruikend een kwantitatief microarray platform.

Mol. Cel.
16
929

-941

Philipps, D. L., et al.

2004

een computationele en experimentele benadering van a priori identificatie van alternatief gesplitste exonen.

RNA
10
1838

-1844

Resch, A., et al.

2004

bewijs voor een subpopulatie van geconserveerde alternatieve splicing gebeurtenissen onder selectiedruk voor eiwit lezen frame behoud.

nucleïnezuren res.
32
1261

-1269

Sorek, R. en Ast, G.

2003

Intronische sequenties flankerend alternatief gesplitste exons worden bewaard tussen mens en muis.

Genome res.
13
1631

-1637

Sorek, R. en veiliger, H. M.

2003

een nieuw algoritme voor computationele identificatie van verontreinigde est bibliotheken.

nucleïnezuren res.
31
1067

-1074

Sorek, R., et al.

2002

aluminium bevattende exons worden als alternatief gesplitst.

Genome res.
12
1060

-1067

Sorek, R., et al.

2004

hoe wijdverspreid is functioneel alternatief splicing in het menselijk genoom?

Trends Genet
20
68

-71

Sorek, R., et al.

2004

een niet-EST-gebaseerde methode voor exon-overslaan voorspelling.

Genome res.
14
1617

-1623

Thompson, J. D., et al.

1994

CLUSTAL W: verbetering van de gevoeligheid van progressieve meervoudige sequentieuitlijning door middel van sequentieweging, positie-specifieke gap penalty ‘ s en gewicht matrix keuze.

Nucleïnezuren Res.
22
4673

-4680

Xing, Y. en Lee, C.

2004

negatieve selectiedruk tegen voortijdige eiwitafbraak wordt verminderd door zowel alternatieve splicing als diploïdie.

Trends Genet.
20
472

-475

Yang, Z.

1997

PAML: een programmapakket voor fylogenetische analyse op basis van maximale waarschijnlijkheid.

berekening Appl. Biosci.
13
555

-556

Yeo, G. W., et al.

2005

identificatie en analyse van alternatieve splicing gebeurtenissen bewaard bij mens en muis.

Proc. Natl Acad. Sci. Verenigde Staten
102
2850

-2855

Zhang, Z. En Gerstein, M.

2004

grootschalige analyse van pseudogenes in het menselijk genoom.

Curr. Opin. Genet. Dev.
14
328

–335

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.