rezumat
rezumat: recent, testul raportului Ka / Ks, care evaluează potențialele de codificare a proteinelor regiunilor genomice pe baza ratelor lor de divergență non-sinonime cu Sinonime, a fost propus și utilizat cu succes în adnotările genomului eucariotelor. Am efectuat sistematic testul raportului Ka / Ks pe 925 de exoni confirmați alternativ în genomul uman, pe care îl descriem în acest manuscris. Am constatat că 22,3% din exonii conservați evolutiv alternativ îmbinați nu pot trece testul raportului Ka/Ks, comparativ cu 9,8% pentru exonii constituenți. Rata fals negativă a fost cea mai mare (85,7%) pentru exonii cu frecvențe joase de includere a transcrierii. Analizele exonilor alternativ îmbinați susținute de secvențe de ARNm de lungime întreagă au dat rezultate similare și aproape jumătate din exonii implicați în evenimente de îmbinare alternativă ancestrală nu au putut trece acest test. Analiza noastră sugerează o direcție viitoare pentru a încorpora predicții alternative de îmbinare bazate pe genomică comparativă cu testul raportului Ka / Ks în eucariote superioare cu îmbinare alternativă extinsă de ARN.
Contact:[email protected]
1 Introducere
genomica comparativă a oferit instrumente puternice pentru adnotările genomurilor eucariote (Kellis și colab., 2003). Într-un studiu de pionierat, Nekrutenko și colab. (2002) a propus testul raportului Ka/Ks pentru a evalua potențialele de codificare a proteinelor ale exonilor preziși. Acest test se bazează pe presupunerea că majoritatea regiunilor care codifică proteinele din genomul uman sunt supuse unei selecții puternice de purificare în timpul evoluției. Ca urmare, ratele lor de divergență sinonimă (Ks) depășesc cu mult ratele de divergență non-sinonimă (Ka), producând rapoarte Ka/Ks mult mai mici decât unul în comparațiile secvenței ortologice om–șoarece. Pe un eșantion de 1244 exoni din 153 de gene care codifică proteinele, testul raportului Ka/Ks a dat o rată fals negativă de 8% și o rată fals pozitivă <5% pentru exonii interni, o precizie care a fost mai bună decât majoritatea instrumentelor de predicție a genelor (Nekrutenko și colab., 2002). De la introducerea sa, testul raportului Ka/Ks a fost utilizat pe scară largă și cu succes pentru îmbunătățirea adnotărilor genomului uman și al altor mamifere (Miller și colab., 2004; Nekrutenko, 2004; Nekrutenko și colab., 2003b; Zhang și Gerstein, 2004).
o întrebare emergentă despre testul raportului Ka/Ks se referă la exonii alternați alternativ în genomul eucariot. Studii recente privind secvențele exprimate și datele microarray au arătat că îmbinarea alternativă este un mecanism larg răspândit de reglare a genelor la eucariotele superioare (Lareau și colab., 2004; Modrek și Lee, 2002). Până la trei sferturi din genele de codificare umană suferă o îmbinare alternativă (Johnson și colab., 2003). Există dovezi abundente care sugerează că îmbinarea alternativă este asociată cu relaxări ale presiunii de selecție în timpul evoluției (Boue și colab., 2003). De exemplu, se observă că îmbinarea alternativă este asociată cu o rată accelerată de creare și pierdere a exonilor (Modrek și Lee, 2003), noi origini exonice din elementele Alu (Sorek și colab., 2002), toleranța codonilor de terminare prematură (Lewis și colab., 2003; Xing și Lee, 2004) și așa mai departe. Iida și Akashi (2000) au investigat modelele de divergență a secvenței a 110 gene care codifică proteine alternativ îmbinate de la om și Drosophila și au constatat că regiunile îmbinate alternativ ale acestor gene au valori Ka/Ks mai mari comparativ cu regiunile constitutive. Alte exemple de Ka/Ks crescute în exoni alternativ îmbinați au fost, de asemenea, raportate (Filip și Mundy, 2004; Hurst și Pal, 2001). Aceste observații ridică o întrebare cu privire la divergența de la testul raportului Ka/Ks între exonii alternativ îmbinați.
2 metode
am identificat exoni alternativ îmbinați prin alinierea secvențelor exprimate umane la genomul uman (Modrek și colab., 2001). Pentru a cuantifica gradul de îmbinare alternativă pentru fiecare exon alternativ îmbinat, am folosit o metrică standard de îmbinare alternativă-nivelul de includere a exonului, definit ca numărul de Est care a inclus un exon împărțit la numărul total de Est care au inclus sau au omis acest exon. Am împărțit alternativ exonii îmbinați în trei clase pe baza nivelurilor lor de includere: formă majoră (>2/3), formă medie (între 1/3 și 2/3) și formă minoră (<1/3).
am identificat secvența de exoni ortologi pentru fiecare exon uman în secvența genomică a ortologului de șoarece, așa cum s-a descris anterior (Modrek și Lee, 2003). Pentru fiecare pereche de secvențe de exon ortolog om–șoarece, am efectuat testul raportului Ka / Ks urmând protocolul lui Nekrutenko și colab. (2003a). Pe scurt, secvențele de exoni ortologi de la om și șoarece au fost traduse și apoi aliniate folosind CLUSTALW Thompson și colab., 1994 sub parametrii impliciți. Această aliniere a proteinelor a fost utilizată pentru însămânțarea unei alinieri a secvențelor nucleotidice corespunzătoare, iar golurile din aliniere au fost tăiate. Am estimat numărul de substituții/site-uri sinonime și non–sinonime folosind estimările Yang-Nielsen din programul yn00 al pachetului PAML (PAML 3.14) (Yang, 1997). Am construit un tabel de urgență 2 2 de la 2 la 2, folosind numerele de site-uri sinonime/non-sinonime modificate și neschimbate și am testat dacă raportul Ka/Ks a fost semnificativ <1 folosind testul exact al lui Fisher. Am definit un exon ca trecând testul raportului Ka / Ks dacă Ka/Ks a fost semnificativ <1 la nivelul P < 0,05.
3 rezultate și discuții
am compilat o listă de 925 de exoni alternativi umani care au fost conservați între genomii umani și șoareci, pe baza analizelor secvențelor exprimate de oameni (Modrek și colab., 2001). De asemenea, am compilat o listă de 10 996 exoni constituenți umani ca control. Toți acești exoni erau exoni interni flancați de introni la ambele capete. Am efectuat testele raportului Ka/Ks pe acești exoni urmând protocolul (Nekrutenko și colab., 2003a) (a se vedea secțiunea Metode). Exonilor constitutivi 9.8% nu au reușit să treacă testul raportului Ka/Ks, un raport similar cu cel raportat de studiul inițial (8%) (Nekrutenko și colab., 2002) (Tabelul 1). În schimb, 22,3% dintre exonii alternativ îmbinați testați nu au putut trece testul raportului Ka/Ks, o creștere de peste 2 ori comparativ cu exonii constituenți. Deoarece exonii alternativ îmbinați cu diferite niveluri de incluziune a exonilor (a se vedea definițiile din secțiunea Metode) au prezentat diferite modele de divergență evolutivă (Modrek și Lee, 2003; Pan și colab., 2004, am împărțit cei 925 de exoni alternativ îmbinați în trei clase pe baza nivelurilor lor de includere a exonilor (vezi secțiunea Metode). Fracțiunea de exoni care nu au reușit testul a fost de 16,0% pentru exonii de formă majoră și a crescut la 85,7% pentru exonii alternativi de formă minoră (inclus <1/3 în transcrieri). Deoarece exonii alternativ îmbinați au fost mai scurți în medie, am subdivizat și exonii în funcție de dimensiunile lor (Fig. 1). Atât în exonii constituenți, cât și în exonii alternativi, fracțiile care nu au reușit testul au fost mai mari pentru exonii mai scurți, în concordanță cu studiul original Nekrutenko și colab., 2002. Cu toate acestea, fracția a fost constant mai mare în exonii alternativ îmbinați după controlul dimensiunilor exonilor (de exemplu, 5,4% pentru exonii constituenți și 16,6% pentru exonii alternativ îmbinați între 101 și 150 nt; Fig. 1). Analizele exonilor splicați alternativ la șoarece într–o comparație șoarece-om au produs rezultate similare (datele nu sunt prezentate).
rezultatul nostru indică faptul că o fracțiune semnificativ mai mare de exoni alternativ îmbinați în genomul uman nu poate trece testul raportului Ka/Ks. Cu toate acestea, acest lucru nu se traduce imediat într-o rată fals negativă crescută a testului raportului Ka/Ks în exoni alternativ îmbinați, deoarece sunt posibile alte interpretări. Aceste date implică de fapt că un număr considerabil de exoni alternativ îmbinați observați în secvențele EST umane nu reprezintă exoni reali, ci provin într-adevăr din artefacte din datele EST (de exemplu, erori spliceosomale rare) (Modrek și Lee, 2002; Sorek și Safer, 2003)? Această explicație pare deosebit de plauzibilă pentru exonii de formă minoră (care sunt observați într-o mică parte din secvențele EST). Pentru a testa această posibilitate, am analizat un subset de exoni alternativ îmbinați care au fost susținuți de secvențe de ARNm de lungime întreagă. Am observat fracții similare de exoni alternativ îmbinați în lipsa testului raportului Ka / Ks (Tabelul 2). Prin urmare, exonii falsi proveniți din artefacte EST nu pot explica datele noastre. Exonii alternativ îmbinați care nu reușesc testul raportului Ka / Ks reprezintă în mare măsură forme de îmbinare nefuncționale? Pentru a răspunde la această întrebare, ne-am limitat analiza la un set de 120 de exoni care au fost îmbinați alternativ atât în transcriptomii umani, cât și în cei de șoarece. Un astfel de model de ‘îmbinare alternativă ancestrală’ a fost adoptat pe scară largă ca criteriu pentru evenimentele de îmbinare alternativă funcțională (Resch și colab., 2004; Sorek și colab., 2004a). La acești exoni, un procent chiar mai mare de 49,2% (față de 22,3% din toți exonii alternativ îmbinați) nu a putut trece testul raportului Ka/Ks (Tabelul 1), în concordanță cu un alt studiu recent asupra acestor exoni (Ohler și colab., 2005). Prin urmare, ipoteza pentru formele de îmbinare nefuncționale nu poate explica nici datele noastre. În cele din urmă, pentru a exclude influența potențială a insulelor CpG, am calculat frecvența CpG peste GpC în fiecare exon și am limitat analiza noastră la un subset de exoni alternativ îmbinați ale căror rapoarte CpG/GpC au fost <0,8 (Iida și Akashi, 2000). Dintre acești exoni, 20,8% nu au putut trece acest test, similar cu procentul pentru setul total de exoni alternativ îmbinați (Tabelul 1). Deși, în principiu, un raport ka/Ks crescut ar putea reflecta diferite mecanisme subiacente, ceea ce nu este punctul central al acestui manuscris, analizele noastre de control indică faptul că o mare parte din exonii alternativi funcționali din genomul uman nu reușesc testul raportului Ka/Ks.
exonii constituenți sunt mai numeroși decât exonii alternativ îmbinați în majoritatea genelor care codifică proteinele. Deoarece în multe organisme acoperirea secvenței de transcriere (de exemplu, ESTs) este încă destul de scăzută, testul raportului Ka/Ks este un instrument puternic pentru rafinarea predicțiilor structurii genetice computaționale. Cu toate acestea, majoritatea genelor care codifică proteinele mamiferelor sunt îmbinate alternativ, iar un număr mic de exoni alternativ îmbinați ar putea avea un impact funcțional și de reglementare profund, așa cum a fost ilustrat recent de îmbinarea alternativă a domeniului C2A Al Piccolo (Garcia și colab., 2004) și multe altele. Analiza noastră sugerează că în organismele cu îmbinare alternativă extinsă (de exemplu, mamifere) este de preferat să se combine testul raportului Ka/Ks cu alte valori care indică probabilitatea de îmbinare alternativă. Din fericire, genomica evolutivă a aruncat , de asemenea, lumină asupra trăsăturilor tipice ale exonilor funcționali alternativ îmbinați, care au fost utilizați cu succes în predicții (Philipps și colab., 2004; Sorek și colab., 2004b; Yeo și colab., 2005). Astfel de informații pot fi integrate cu testul raportului Ka/Ks pentru o evaluare mai precisă a potențialelor de codificare a proteinelor din regiunile genomice.
testul raportului Ka / Ks pe exoni constituenți și alternativ îmbinați cu dimensiuni diferite. (A) exoni constituenți și (B) exoni alternativi.
testul raportului Ka / Ks pe exoni constituenți și alternativ îmbinați cu dimensiuni diferite. (A) exoni constituenți și (B) exoni alternativi.
exoni care trec sau nu testul raportului Ka/Ks
tipuri de exoni . | Total # . | lungimea medie (bp) . | # Fail . | # trece . | % eșuează . | media (mediană) Ka/Ks . |
---|---|---|---|---|---|---|
constitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativă | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (formă majoră) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
tipuri de exoni . | Total # . | lungimea medie (bp) . | # Fail . | # trece . | % eșuează . | media (mediană) Ka/Ks . |
---|---|---|---|---|---|---|
constitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativă | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (formă majoră) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (formă medie) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (formă minoră) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
exoni care trec sau nu testul raportului Ka/Ks
tipuri de exoni . | Total # . | lungimea medie (bp) . | # Fail . | # trece . | % eșuează . | media (mediană) Ka/Ks . |
---|---|---|---|---|---|---|
constitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativă | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (formă majoră) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
tipuri de exoni . | Total # . | lungimea medie (bp) . | # Fail . | # trece . | % eșuează . | media (mediană) Ka/Ks . |
---|---|---|---|---|---|---|
constitutiv | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativă | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (formă majoră) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (formă medie) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (formă minoră) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
exoni susținuți de ARNm umani care trec sau nu testul raportului Ka/Ks
tipuri de exoni . | Total # . | # Fail . | # trece . | % eșuează . |
---|---|---|---|---|
constitutiv | 10 524 | 1017 | 9507 | 9.7 |
alternativă | 811 | 158 | 653 | 19.5 |
Alt (formă majoră) | 618 | 99 | 519 | 16.0 |
Alt (formă medie) | 170 | 39 | 131 | 22.9 |
Alt (formă minoră) | 23 | 20 | 3 | 87.0 |
tipuri de exoni . | Total # . | # Fail . | # trece . | % eșuează . |
---|---|---|---|---|
Constitutiv | 10 524 | 1017 | 9507 | 9.7 |
Alternativă | 811 | 158 | 653 | 19.5 |
Alt (formă majoră) | 618 | 99 | 519 | 16.0 |
Alt (formă medie) | 170 | 39 | 131 | 22.9 |
Alt (formă minoră) | 23 | 20 | 3 | 87.0 |
exoni susținuți de ARNm umani care trec sau nu testul raportului Ka/Ks
tipuri de exoni . | Total # . | # Fail . | # trece . | % eșuează . |
---|---|---|---|---|
constitutiv | 10 524 | 1017 | 9507 | 9.7 |
alternativă | 811 | 158 | 653 | 19.5 |
Alt (formă majoră) | 618 | 99 | 519 | 16.0 |
Alt (formă medie) | 170 | 39 | 131 | 22.9 |
Alt (formă minoră) | 23 | 20 | 3 | 87.0 |
tipuri de exoni . | Total # . | # Fail . | # trece . | % eșuează . |
---|---|---|---|---|
Constitutiv | 10 524 | 1017 | 9507 | 9.7 |
Alternativă | 811 | 158 | 653 | 19.5 |
Alt (formă majoră) | 618 | 99 | 519 | 16.0 |
Alt (formă medie) | 170 | 39 | 131 | 22.9 |
Alt (formă minoră) | 23 | 20 | 3 | 87.0 |
autorii îi mulțumesc lui Anton Nekrutenko pentru citirea manuscrisului nostru și pentru comentariile utile. Această lucrare a fost susținută de NIH Grant U54–RR021813, un premiu profesor-savant acordat C. J. L. de la Fundația Dreyfus, un grant doe de-FC02-02ER63421. YX este susținut de un doctorat.disertație fellowship de la UCLA.
Conflict de interese: niciunul declarat.
Boue, S. și colab.
îmbinare alternativă și evoluție.
-1034
Filip, L. C. și Mundy, N. I.
evoluție rapidă prin selecție darwiniană pozitivă în domeniul extracelular al proteinei limfocitare abundente CD45 la primate.
-1511
Garcia, J. și colab.
un comutator conformațional în domeniul Piccolo C2A reglementat prin îmbinare alternativă.
-53
Hurst, L. D. și Pal, C.
dovezi pentru purificarea selecției care acționează pe site-uri silențioase din BRCA1.
-65
Iida, K. și Akashi, H.
un test de selecție translațională la siturile silențioase din genomul uman: comparații ale compoziției de bază în gene alternativ îmbinate.
-105
Johnson, J. M. și colab.
sondaj la nivel de genom al îmbinării alternative umane pre-ARNm cu microarrays de joncțiune exonică.
-2144
Kellis, M. și colab.
secvențierea și compararea speciilor de drojdie pentru a identifica genele și elementele de reglementare.
-254
Lareau, L. F. și colab.
rolurile evolutive ale îmbinării alternative.
-282
Lewis, B. P. și colab.
dovezi pentru cuplarea pe scară largă a îmbinării alternative și a degradării ARNm mediate de prostii la om.
-192
Miller, W. și colab.
genomică comparativă.
-56
Modrek, B. și Lee, C.
o viziune genomică a îmbinării alternative.
-19
Modrek, B. și Lee, C.
îmbinarea alternativă la genomul uman, șoarece și șobolan este asociată cu o rată crescută de creare/pierdere a exonilor.
-180
Modrek, B. și colab.
analiza la nivel de genom a îmbinării alternative folosind date de secvență exprimate uman.
-2859
Nekrutenko, A.
reconcilierea numerelor: ESTs versus genele care codifică proteinele.
-1282
Nekrutenko, A. și colab.
testul raportului K(A) / K(S) pentru evaluarea potențialului de codificare a proteinelor din regiunile genomice: un studiu empiric și de simulare.
-202
Nekrutenko, A. și colab.
ETOPE: testul evolutiv al exonilor preziși.
-3567
Nekrutenko, A. și colab.
o abordare evolutivă relevă o capacitate ridicată de codificare a proteinelor a genomului uman.
-310
Ohler, U., și colab.
recunoașterea exonilor necunoscuți conservați alternativ îmbinați.
Pan, Q. și colab.
dezvăluirea caracteristicilor de reglementare globale ale îmbinării alternative a mamiferelor folosind o platformă cantitativă de microarray.
-941
Philipps, D. L. și colab.
o abordare computațională și experimentală față de identificarea a priori a exonilor alternativ îmbinați.
-1844
Resch, A. și colab.
dovezi pentru o subpopulație de evenimente alternative de îmbinare conservate sub presiune de selecție pentru conservarea cadrului de citire a proteinelor.
-1269
Sorek, R. și Ast, G.
secvențele Intronice care flancează exonii alternativ îmbinați sunt conservate între om și șoarece.
-1637
Sorek, R. și Safer, H. M.
un algoritm nou pentru identificarea computațională a bibliotecilor Est contaminate.
-1074
Sorek, R. și colab.
exonii care conțin Alu sunt alternativ îmbinați.
-1067
Sorek, R. și colab.
cât de răspândită este îmbinarea alternativă funcțională în genomul uman?
-71
Sorek, R. și colab.
o metodă non-EST – based pentru predicție Exon-sărind peste.
-1623
Thompson, J. D. și colab.
CLUSTAL W: îmbunătățirea sensibilității alinierii progresive a secvenței multiple prin ponderarea secvenței, penalități de decalaj specifice poziției și alegerea matricei de greutate.
-4680
Xing, Y. și Lee, C.
presiunea de selecție negativă împotriva trunchierii premature a proteinelor este redusă atât prin îmbinarea alternativă, cât și prin diploidie.
-475
Yang, Z.
PAML: un pachet de programe pentru analiza filogenetică prin probabilitate maximă.
-556
Yeo, G. W. și colab.
identificarea și analiza evenimentelor alternative de îmbinare conservate la om și șoarece.
-2855
Zhang, Z. și Gerstein, M.
analiza pe scară largă a pseudogenelor în genomul uman.
–335