evaluarea aplicării testului raportului Ka/Ks la exoni alternativ îmbinați

rezumat

rezumat: recent, testul raportului Ka / Ks, care evaluează potențialele de codificare a proteinelor regiunilor genomice pe baza ratelor lor de divergență non-sinonime cu Sinonime, a fost propus și utilizat cu succes în adnotările genomului eucariotelor. Am efectuat sistematic testul raportului Ka / Ks pe 925 de exoni confirmați alternativ în genomul uman, pe care îl descriem în acest manuscris. Am constatat că 22,3% din exonii conservați evolutiv alternativ îmbinați nu pot trece testul raportului Ka/Ks, comparativ cu 9,8% pentru exonii constituenți. Rata fals negativă a fost cea mai mare (85,7%) pentru exonii cu frecvențe joase de includere a transcrierii. Analizele exonilor alternativ îmbinați susținute de secvențe de ARNm de lungime întreagă au dat rezultate similare și aproape jumătate din exonii implicați în evenimente de îmbinare alternativă ancestrală nu au putut trece acest test. Analiza noastră sugerează o direcție viitoare pentru a încorpora predicții alternative de îmbinare bazate pe genomică comparativă cu testul raportului Ka / Ks în eucariote superioare cu îmbinare alternativă extinsă de ARN.

Contact:[email protected]

1 Introducere

genomica comparativă a oferit instrumente puternice pentru adnotările genomurilor eucariote (Kellis și colab., 2003). Într-un studiu de pionierat, Nekrutenko și colab. (2002) a propus testul raportului Ka/Ks pentru a evalua potențialele de codificare a proteinelor ale exonilor preziși. Acest test se bazează pe presupunerea că majoritatea regiunilor care codifică proteinele din genomul uman sunt supuse unei selecții puternice de purificare în timpul evoluției. Ca urmare, ratele lor de divergență sinonimă (Ks) depășesc cu mult ratele de divergență non-sinonimă (Ka), producând rapoarte Ka/Ks mult mai mici decât unul în comparațiile secvenței ortologice om–șoarece. Pe un eșantion de 1244 exoni din 153 de gene care codifică proteinele, testul raportului Ka/Ks a dat o rată fals negativă de 8% și o rată fals pozitivă <5% pentru exonii interni, o precizie care a fost mai bună decât majoritatea instrumentelor de predicție a genelor (Nekrutenko și colab., 2002). De la introducerea sa, testul raportului Ka/Ks a fost utilizat pe scară largă și cu succes pentru îmbunătățirea adnotărilor genomului uman și al altor mamifere (Miller și colab., 2004; Nekrutenko, 2004; Nekrutenko și colab., 2003b; Zhang și Gerstein, 2004).

o întrebare emergentă despre testul raportului Ka/Ks se referă la exonii alternați alternativ în genomul eucariot. Studii recente privind secvențele exprimate și datele microarray au arătat că îmbinarea alternativă este un mecanism larg răspândit de reglare a genelor la eucariotele superioare (Lareau și colab., 2004; Modrek și Lee, 2002). Până la trei sferturi din genele de codificare umană suferă o îmbinare alternativă (Johnson și colab., 2003). Există dovezi abundente care sugerează că îmbinarea alternativă este asociată cu relaxări ale presiunii de selecție în timpul evoluției (Boue și colab., 2003). De exemplu, se observă că îmbinarea alternativă este asociată cu o rată accelerată de creare și pierdere a exonilor (Modrek și Lee, 2003), noi origini exonice din elementele Alu (Sorek și colab., 2002), toleranța codonilor de terminare prematură (Lewis și colab., 2003; Xing și Lee, 2004) și așa mai departe. Iida și Akashi (2000) au investigat modelele de divergență a secvenței a 110 gene care codifică proteine alternativ îmbinate de la om și Drosophila și au constatat că regiunile îmbinate alternativ ale acestor gene au valori Ka/Ks mai mari comparativ cu regiunile constitutive. Alte exemple de Ka/Ks crescute în exoni alternativ îmbinați au fost, de asemenea, raportate (Filip și Mundy, 2004; Hurst și Pal, 2001). Aceste observații ridică o întrebare cu privire la divergența de la testul raportului Ka/Ks între exonii alternativ îmbinați.

2 metode

am identificat exoni alternativ îmbinați prin alinierea secvențelor exprimate umane la genomul uman (Modrek și colab., 2001). Pentru a cuantifica gradul de îmbinare alternativă pentru fiecare exon alternativ îmbinat, am folosit o metrică standard de îmbinare alternativă-nivelul de includere a exonului, definit ca numărul de Est care a inclus un exon împărțit la numărul total de Est care au inclus sau au omis acest exon. Am împărțit alternativ exonii îmbinați în trei clase pe baza nivelurilor lor de includere: formă majoră (>2/3), formă medie (între 1/3 și 2/3) și formă minoră (<1/3).

am identificat secvența de exoni ortologi pentru fiecare exon uman în secvența genomică a ortologului de șoarece, așa cum s-a descris anterior (Modrek și Lee, 2003). Pentru fiecare pereche de secvențe de exon ortolog om–șoarece, am efectuat testul raportului Ka / Ks urmând protocolul lui Nekrutenko și colab. (2003a). Pe scurt, secvențele de exoni ortologi de la om și șoarece au fost traduse și apoi aliniate folosind CLUSTALW Thompson și colab., 1994 sub parametrii impliciți. Această aliniere a proteinelor a fost utilizată pentru însămânțarea unei alinieri a secvențelor nucleotidice corespunzătoare, iar golurile din aliniere au fost tăiate. Am estimat numărul de substituții/site-uri sinonime și non–sinonime folosind estimările Yang-Nielsen din programul yn00 al pachetului PAML (PAML 3.14) (Yang, 1997). Am construit un tabel de urgență 2 2 de la 2 la 2, folosind numerele de site-uri sinonime/non-sinonime modificate și neschimbate și am testat dacă raportul Ka/Ks a fost semnificativ <1 folosind testul exact al lui Fisher. Am definit un exon ca trecând testul raportului Ka / Ks dacă Ka/Ks a fost semnificativ <1 la nivelul P < 0,05.

3 rezultate și discuții

am compilat o listă de 925 de exoni alternativi umani care au fost conservați între genomii umani și șoareci, pe baza analizelor secvențelor exprimate de oameni (Modrek și colab., 2001). De asemenea, am compilat o listă de 10 996 exoni constituenți umani ca control. Toți acești exoni erau exoni interni flancați de introni la ambele capete. Am efectuat testele raportului Ka/Ks pe acești exoni urmând protocolul (Nekrutenko și colab., 2003a) (a se vedea secțiunea Metode). Exonilor constitutivi 9.8% nu au reușit să treacă testul raportului Ka/Ks, un raport similar cu cel raportat de studiul inițial (8%) (Nekrutenko și colab., 2002) (Tabelul 1). În schimb, 22,3% dintre exonii alternativ îmbinați testați nu au putut trece testul raportului Ka/Ks, o creștere de peste 2 ori comparativ cu exonii constituenți. Deoarece exonii alternativ îmbinați cu diferite niveluri de incluziune a exonilor (a se vedea definițiile din secțiunea Metode) au prezentat diferite modele de divergență evolutivă (Modrek și Lee, 2003; Pan și colab., 2004, am împărțit cei 925 de exoni alternativ îmbinați în trei clase pe baza nivelurilor lor de includere a exonilor (vezi secțiunea Metode). Fracțiunea de exoni care nu au reușit testul a fost de 16,0% pentru exonii de formă majoră și a crescut la 85,7% pentru exonii alternativi de formă minoră (inclus <1/3 în transcrieri). Deoarece exonii alternativ îmbinați au fost mai scurți în medie, am subdivizat și exonii în funcție de dimensiunile lor (Fig. 1). Atât în exonii constituenți, cât și în exonii alternativi, fracțiile care nu au reușit testul au fost mai mari pentru exonii mai scurți, în concordanță cu studiul original Nekrutenko și colab., 2002. Cu toate acestea, fracția a fost constant mai mare în exonii alternativ îmbinați după controlul dimensiunilor exonilor (de exemplu, 5,4% pentru exonii constituenți și 16,6% pentru exonii alternativ îmbinați între 101 și 150 nt; Fig. 1). Analizele exonilor splicați alternativ la șoarece într–o comparație șoarece-om au produs rezultate similare (datele nu sunt prezentate).

rezultatul nostru indică faptul că o fracțiune semnificativ mai mare de exoni alternativ îmbinați în genomul uman nu poate trece testul raportului Ka/Ks. Cu toate acestea, acest lucru nu se traduce imediat într-o rată fals negativă crescută a testului raportului Ka/Ks în exoni alternativ îmbinați, deoarece sunt posibile alte interpretări. Aceste date implică de fapt că un număr considerabil de exoni alternativ îmbinați observați în secvențele EST umane nu reprezintă exoni reali, ci provin într-adevăr din artefacte din datele EST (de exemplu, erori spliceosomale rare) (Modrek și Lee, 2002; Sorek și Safer, 2003)? Această explicație pare deosebit de plauzibilă pentru exonii de formă minoră (care sunt observați într-o mică parte din secvențele EST). Pentru a testa această posibilitate, am analizat un subset de exoni alternativ îmbinați care au fost susținuți de secvențe de ARNm de lungime întreagă. Am observat fracții similare de exoni alternativ îmbinați în lipsa testului raportului Ka / Ks (Tabelul 2). Prin urmare, exonii falsi proveniți din artefacte EST nu pot explica datele noastre. Exonii alternativ îmbinați care nu reușesc testul raportului Ka / Ks reprezintă în mare măsură forme de îmbinare nefuncționale? Pentru a răspunde la această întrebare, ne-am limitat analiza la un set de 120 de exoni care au fost îmbinați alternativ atât în transcriptomii umani, cât și în cei de șoarece. Un astfel de model de ‘îmbinare alternativă ancestrală’ a fost adoptat pe scară largă ca criteriu pentru evenimentele de îmbinare alternativă funcțională (Resch și colab., 2004; Sorek și colab., 2004a). La acești exoni, un procent chiar mai mare de 49,2% (față de 22,3% din toți exonii alternativ îmbinați) nu a putut trece testul raportului Ka/Ks (Tabelul 1), în concordanță cu un alt studiu recent asupra acestor exoni (Ohler și colab., 2005). Prin urmare, ipoteza pentru formele de îmbinare nefuncționale nu poate explica nici datele noastre. În cele din urmă, pentru a exclude influența potențială a insulelor CpG, am calculat frecvența CpG peste GpC în fiecare exon și am limitat analiza noastră la un subset de exoni alternativ îmbinați ale căror rapoarte CpG/GpC au fost <0,8 (Iida și Akashi, 2000). Dintre acești exoni, 20,8% nu au putut trece acest test, similar cu procentul pentru setul total de exoni alternativ îmbinați (Tabelul 1). Deși, în principiu, un raport ka/Ks crescut ar putea reflecta diferite mecanisme subiacente, ceea ce nu este punctul central al acestui manuscris, analizele noastre de control indică faptul că o mare parte din exonii alternativi funcționali din genomul uman nu reușesc testul raportului Ka/Ks.

exonii constituenți sunt mai numeroși decât exonii alternativ îmbinați în majoritatea genelor care codifică proteinele. Deoarece în multe organisme acoperirea secvenței de transcriere (de exemplu, ESTs) este încă destul de scăzută, testul raportului Ka/Ks este un instrument puternic pentru rafinarea predicțiilor structurii genetice computaționale. Cu toate acestea, majoritatea genelor care codifică proteinele mamiferelor sunt îmbinate alternativ, iar un număr mic de exoni alternativ îmbinați ar putea avea un impact funcțional și de reglementare profund, așa cum a fost ilustrat recent de îmbinarea alternativă a domeniului C2A Al Piccolo (Garcia și colab., 2004) și multe altele. Analiza noastră sugerează că în organismele cu îmbinare alternativă extinsă (de exemplu, mamifere) este de preferat să se combine testul raportului Ka/Ks cu alte valori care indică probabilitatea de îmbinare alternativă. Din fericire, genomica evolutivă a aruncat , de asemenea, lumină asupra trăsăturilor tipice ale exonilor funcționali alternativ îmbinați, care au fost utilizați cu succes în predicții (Philipps și colab., 2004; Sorek și colab., 2004b; Yeo și colab., 2005). Astfel de informații pot fi integrate cu testul raportului Ka/Ks pentru o evaluare mai precisă a potențialelor de codificare a proteinelor din regiunile genomice.

Fig. 1

testul raportului Ka / Ks pe exoni constituenți și alternativ îmbinați cu dimensiuni diferite. (A) exoni constituenți și (B) exoni alternativi.

Fig. 1

testul raportului Ka / Ks pe exoni constituenți și alternativ îmbinați cu dimensiuni diferite. (A) exoni constituenți și (B) exoni alternativi.

Tabelul 1

exoni care trec sau nu testul raportului Ka/Ks

tipuri de exoni . Total # . lungimea medie (bp) . # Fail . # trece . % eșuează . media (mediană) Ka/Ks .
constitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativă 925 122 206 719 22.3 0.199 (0.094)
Alt (formă majoră) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
tipuri de exoni . Total # . lungimea medie (bp) . # Fail . # trece . % eșuează . media (mediană) Ka/Ks .
constitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativă 925 122 206 719 22.3 0.199 (0.094)
Alt (formă majoră) 630 121 101 529 16.0 0.162 (0.086)
Alt (formă medie) 253 129 69 184 27.3 0.235 (0.113)
Alt (formă minoră) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG / GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabelul 1

exoni care trec sau nu testul raportului Ka/Ks

tipuri de exoni . Total # . lungimea medie (bp) . # Fail . # trece . % eșuează . media (mediană) Ka/Ks .
constitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativă 925 122 206 719 22.3 0.199 (0.094)
Alt (formă majoră) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
tipuri de exoni . Total # . lungimea medie (bp) . # Fail . # trece . % eșuează . media (mediană) Ka/Ks .
constitutiv 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativă 925 122 206 719 22.3 0.199 (0.094)
Alt (formă majoră) 630 121 101 529 16.0 0.162 (0.086)
Alt (formă medie) 253 129 69 184 27.3 0.235 (0.113)
Alt (formă minoră) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG / GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabelul 2

exoni susținuți de ARNm umani care trec sau nu testul raportului Ka/Ks

tipuri de exoni . Total # . # Fail . # trece . % eșuează .
constitutiv 10 524 1017 9507 9.7
alternativă 811 158 653 19.5
Alt (formă majoră) 618 99 519 16.0
Alt (formă medie) 170 39 131 22.9
Alt (formă minoră) 23 20 3 87.0
tipuri de exoni . Total # . # Fail . # trece . % eșuează .
Constitutiv 10 524 1017 9507 9.7
Alternativă 811 158 653 19.5
Alt (formă majoră) 618 99 519 16.0
Alt (formă medie) 170 39 131 22.9
Alt (formă minoră) 23 20 3 87.0
Tabelul 2

exoni susținuți de ARNm umani care trec sau nu testul raportului Ka/Ks

tipuri de exoni . Total # . # Fail . # trece . % eșuează .
constitutiv 10 524 1017 9507 9.7
alternativă 811 158 653 19.5
Alt (formă majoră) 618 99 519 16.0
Alt (formă medie) 170 39 131 22.9
Alt (formă minoră) 23 20 3 87.0
tipuri de exoni . Total # . # Fail . # trece . % eșuează .
Constitutiv 10 524 1017 9507 9.7
Alternativă 811 158 653 19.5
Alt (formă majoră) 618 99 519 16.0
Alt (formă medie) 170 39 131 22.9
Alt (formă minoră) 23 20 3 87.0

autorii îi mulțumesc lui Anton Nekrutenko pentru citirea manuscrisului nostru și pentru comentariile utile. Această lucrare a fost susținută de NIH Grant U54–RR021813, un premiu profesor-savant acordat C. J. L. de la Fundația Dreyfus, un grant doe de-FC02-02ER63421. YX este susținut de un doctorat.disertație fellowship de la UCLA.

Conflict de interese: niciunul declarat.

Boue, S. și colab.

2003

îmbinare alternativă și evoluție.

Bioessays
25
1031

-1034

Filip, L. C. și Mundy, N. I.

2004

evoluție rapidă prin selecție darwiniană pozitivă în domeniul extracelular al proteinei limfocitare abundente CD45 la primate.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J. și colab.

2004

un comutator conformațional în domeniul Piccolo C2A reglementat prin îmbinare alternativă.

Nat. Struct. Mol. Biol.
11
45

-53

Hurst, L. D. și Pal, C.

2001

dovezi pentru purificarea selecției care acționează pe site-uri silențioase din BRCA1.

Tendințe Genet.
17
62

-65

Iida, K. și Akashi, H.

2000

un test de selecție translațională la siturile silențioase din genomul uman: comparații ale compoziției de bază în gene alternativ îmbinate.

genă
261
93

-105

Johnson, J. M. și colab.

2003

sondaj la nivel de genom al îmbinării alternative umane pre-ARNm cu microarrays de joncțiune exonică.

știință
302
2141

-2144

Kellis, M. și colab.

2003

secvențierea și compararea speciilor de drojdie pentru a identifica genele și elementele de reglementare.

natura
423
241

-254

Lareau, L. F. și colab.

2004

rolurile evolutive ale îmbinării alternative.

Curr. Opin. Struct. Biol.
14
273

-282

Lewis, B. P. și colab.

2003

dovezi pentru cuplarea pe scară largă a îmbinării alternative și a degradării ARNm mediate de prostii la om.

Proc. Natl Acad. Sci. SUA
100
189

-192

Miller, W. și colab.

2004

genomică comparativă.

Anu. Rev. Genomica Fredonează. Genet.
5
15

-56

Modrek, B. și Lee, C.

2002

o viziune genomică a îmbinării alternative.

Nat. Genet.
30
13

-19

Modrek, B. și Lee, C.

2003

îmbinarea alternativă la genomul uman, șoarece și șobolan este asociată cu o rată crescută de creare/pierdere a exonilor.

Nat. Genet.
34
177

-180

Modrek, B. și colab.

2001

analiza la nivel de genom a îmbinării alternative folosind date de secvență exprimate uman.

acizi nucleici Res.
29
2850

-2859

Nekrutenko, A.

2004

reconcilierea numerelor: ESTs versus genele care codifică proteinele.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A. și colab.

2002

testul raportului K(A) / K(S) pentru evaluarea potențialului de codificare a proteinelor din regiunile genomice: un studiu empiric și de simulare.

Genome Res.
12
198

-202

Nekrutenko, A. și colab.

2003

ETOPE: testul evolutiv al exonilor preziși.

Acizi Nucleici Res.
31
3564

-3567

Nekrutenko, A. și colab.

2003

o abordare evolutivă relevă o capacitate ridicată de codificare a proteinelor a genomului uman.

Tendințe Genet.
19
306

-310

Ohler, U., și colab.

2005

recunoașterea exonilor necunoscuți conservați alternativ îmbinați.

PLoS Comp. Biol.
1
e15

Pan, Q. și colab.

2004

dezvăluirea caracteristicilor de reglementare globale ale îmbinării alternative a mamiferelor folosind o platformă cantitativă de microarray.

Mol. Celula.
16
929

-941

Philipps, D. L. și colab.

2004

o abordare computațională și experimentală față de identificarea a priori a exonilor alternativ îmbinați.

ARN
10
1838

-1844

Resch, A. și colab.

2004

dovezi pentru o subpopulație de evenimente alternative de îmbinare conservate sub presiune de selecție pentru conservarea cadrului de citire a proteinelor.

acizi nucleici Res.
32
1261

-1269

Sorek, R. și Ast, G.

2003

secvențele Intronice care flancează exonii alternativ îmbinați sunt conservate între om și șoarece.

Genome Res.
13
1631

-1637

Sorek, R. și Safer, H. M.

2003

un algoritm nou pentru identificarea computațională a bibliotecilor Est contaminate.

acizi nucleici Res.
31
1067

-1074

Sorek, R. și colab.

2002

exonii care conțin Alu sunt alternativ îmbinați.

Genome Res.
12
1060

-1067

Sorek, R. și colab.

2004

cât de răspândită este îmbinarea alternativă funcțională în genomul uman?

tendințe Genet
20
68

-71

Sorek, R. și colab.

2004

o metodă non-EST – based pentru predicție Exon-sărind peste.

Genome Res.
14
1617

-1623

Thompson, J. D. și colab.

1994

CLUSTAL W: îmbunătățirea sensibilității alinierii progresive a secvenței multiple prin ponderarea secvenței, penalități de decalaj specifice poziției și alegerea matricei de greutate.

Acizi Nucleici Res.
22
4673

-4680

Xing, Y. și Lee, C.

2004

presiunea de selecție negativă împotriva trunchierii premature a proteinelor este redusă atât prin îmbinarea alternativă, cât și prin diploidie.

Tendințe Genet.
20
472

-475

Yang, Z.

1997

PAML: un pachet de programe pentru analiza filogenetică prin probabilitate maximă.

calcul. Appl. Biosci.
13
555

-556

Yeo, G. W. și colab.

2005

identificarea și analiza evenimentelor alternative de îmbinare conservate la om și șoarece.

Proc. Natl Acad. Sci. SUA
102
2850

-2855

Zhang, Z. și Gerstein, M.

2004

analiza pe scară largă a pseudogenelor în genomul uman.

Curr. Opin. Genet. Dev.
14
328

–335

Lasă un răspuns

Adresa ta de email nu va fi publicată.