Abstrakt
shrnutí: nedávno byl navržen a úspěšně použit test poměru Ka/Ks, který hodnotí potenciály kódující proteiny genomických oblastí na základě jejich nesynynonymních až synonymních divergenčních sazeb v genomových anotacích eukaryot. Systematicky jsme prováděli test poměru Ka / Ks na 925 transkriptově potvrzených alternativně Spojených exonech v lidském genomu, které popisujeme v tomto rukopisu. Zjistili jsme, že 22.3% evolučně konzervovaných alternativně Spojených exonů nemůže projít testem poměru Ka/Ks, ve srovnání s 9.8% pro konstitutivní exony. Falešně negativní míra byla nejvyšší (85,7%) pro exony s nízkými frekvencemi zahrnutí přepisu. Analýzy alternativně sestříhaných exonů podporovaných sekvencemi mRNA v plné délce přinesly podobné výsledky, a téměř polovina exonů zapojených do událostí alternativního sestřihu předků nemohla projít tímto testem. Naše analýza navrhuje budoucí směr začlenit srovnávací předpovědi alternativního sestřihu založené na genomice s testem poměru Ka / Ks u vyšších eukaryot s rozsáhlým alternativním sestřihem RNA.
Contact:[email protected]
1 Úvod
srovnávací genomika poskytla výkonné nástroje pro anotace eukaryotických genomů (Kellis et al., 2003). V průkopnické studii Nekrutenko et al. (2002) navrhl „test poměru Ka/Ks“ k posouzení potenciálů kódujících proteiny předpokládaných exonů. Tento test je založen na předpokladu, že většina oblastí kódujících proteiny v lidském genomu je během evoluce silně očištěna. Výsledkem je, že jejich míra synonymní divergence (Ks) výrazně převyšuje míru nesynchronní divergence (Ka), čímž se získá poměr Ka/Ks mnohem menší než jeden v porovnání ortologních sekvencí člověka a myši. Na vzorku 1244 exonů ze 153 genů kódujících proteiny poskytl test poměru Ka / Ks 8% falešně negativní rychlost a <5% falešně pozitivní rychlost pro vnitřní exony, přesnost, která byla lepší než většina nástrojů pro predikci genů (Nekrutenko et al ., 2002). Od svého zavedení byl test poměru Ka / Ks široce a úspěšně používán pro zlepšení anotací lidských a jiných savčích genomů (Miller et al ., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang and Gerstein, 2004).
jedna vznikající otázka týkající se testu poměru Ka/Ks se týká alternativně Spojených exonů v eukaryotických genomech. Nedávné studie exprimovaných sekvencí a dat microarray ukázaly, že alternativní sestřih je rozšířeným mechanismem regulace genů u vyšších eukaryot (Lareau et al., 2004; Modrek a Lee, 2002). Až tři čtvrtiny lidských kódujících genů podléhají alternativnímu sestřihu (Johnson et al ., 2003). Existuje mnoho důkazů, které naznačují, že alternativní sestřih je spojen s uvolněním selekčního tlaku během evoluce (Boue et al ., 2003). Například je pozorováno, že alternativní sestřih je spojen se zrychlenou rychlostí tvorby a ztráty exonu (Modrek a Lee, 2003), nové exony pocházejí z alu prvků (Sorek et al., 2002), tolerance kodonů předčasného ukončení (Lewis et al., 2003; Xing a Lee, 2004), a tak dále. Iida a Akashi (2000) zkoumali sekvenční divergenční vzory 110 alternativně sestříhaných genů kódujících proteiny z člověka a Drosophily a zjistili, že alternativně Spojené oblasti těchto genů měly vyšší hodnoty Ka / Ks ve srovnání s konstitutivními oblastmi. Byly také hlášeny další příklady zvýšených Ka/Ks v alternativně Spojených exonech (Filip a Mundy, 2004; Hurst a Pal, 2001). Tato pozorování vyvolávají otázku týkající se odchylky od testu poměru Ka / Ks mezi alternativně spojenými exony.
2 metody
identifikovali jsme alternativně Spojené exony zarovnáním lidských exprimovaných sekvencí s lidským genomem (Modrek et al., 2001). Kvantifikovat stupeň alternativního sestřihu pro každý alternativně sestříhaný exon, použili jsme standardní metriku alternativního sestřihu-úroveň inkluze exonu, definovaný jako počet Estů, které zahrnovaly exon děleno celkovým počtem Estů, které tento exon zahrnovaly nebo přeskočily. Rozdělili jsme alternativně sestříhané exony do tří tříd na základě jejich úrovní zařazení: major-form (>2/3), medium-form (mezi 1/3 a 2/3) a minor-form (<1/3).
identifikovali jsme orthologní exonovou sekvenci pro každý lidský exon v genomové sekvenci myšího orthologa, jak bylo dříve popsáno (Modrek a Lee, 2003). Pro každý ortologní exon sekvenční pár člověk-myš jsme provedli test poměru Ka / Ks podle protokolu Nekrutenko et al. (2003a). Stručně řečeno, ortologní exonové sekvence z člověka a myši byly přeloženy a poté zarovnány pomocí CLUSTALW Thompson et al., 1994 podle výchozích parametrů. Toto zarovnání proteinů bylo použito k osazení zarovnání odpovídajících nukleotidových sekvencí a mezery v zarovnání byly oříznuty. Odhadli jsme počet synonymních a nesynonymních substitucí / stránek pomocí odhadů Yang–Nielsen z programu YN00 balíčku PAML (PAML 3.14) (Yang, 1997). Vytvořili jsme kontingenční tabulku 2 × 2 pomocí počtu změněných a nezměněných synonymních / nesynchronních webů a testovali jsme, zda byl poměr Ka/Ks významně <1 pomocí Fisherova přesného testu. Exon jsme definovali jako absolvování testu poměru Ka / Ks, pokud byl jeho Ka/Ks významně <1 na úrovni P < 0,05.
3 výsledky a diskuse
sestavili jsme seznam 925 lidských alternativně sestříhaných exonů, které byly konzervovány mezi lidským a myším genomem, na základě analýz lidských exprimovaných sekvencí (Modrek et al ., 2001). Také jsme sestavili seznam 10 996 lidských konstitutivních exonů jako kontroly. Všechny tyto exony byly vnitřní exony lemované introny na obou koncích. Na těchto exonech jsme provedli testy poměru Ka/Ks podle protokolu (Nekrutenko et al., 2003a) (viz část metody). Z konstitutivních exonů 9.8% neprošlo testem poměru Ka / Ks, což je poměr podobný tomu, co bylo hlášeno v počáteční studii (8%) (Nekrutenko et al., 2002) (Tabulka 1). Naproti tomu 22,3% testovaných alternativně sestříhaných exonů nemohlo projít testem poměru Ka / Ks, což je více než 2násobné zvýšení ve srovnání s konstitutivními exony. Protože alternativně Spojené exony s různými úrovněmi inkluze exonů (viz definice v sekci metody) vykazovaly různé vzorce evoluční divergence (Modrek a Lee, 2003; Pan et al. , 2004, rozdělili jsme 925 alternativně sestříhaných exonů do tří tříd na základě jejich úrovní zahrnutí exonů (viz část metody). Podíl exonů, u nichž test selhal, byl 16,0% pro exony velké formy a zvýšil se na 85,7% pro alternativní exony menší formy (zahrnuto <1/3 v transkriptech). Protože alternativně sestříhané exony byly v průměru kratší, rozdělili jsme také exony na základě jejich velikostí (obr. 1). U konstitutivních i alternativně sestříhaných exonů byly frakce, které selhaly při testu, vyšší u kratších exonů, v souladu s původní studií Nekrutenko et al., 2002. Avšak frakce byla trvale vyšší v alternativně Spojených exonech po kontrole velikostí exonů (např. 5,4% pro konstitutivní exony a 16,6% pro alternativně sestříhané exony mezi 101 a 150 nt; obr. 1). Analýzy exonů alternativně sestříhaných myší v porovnání myš–člověk přinesly podobné výsledky (údaje nejsou zobrazeny).
náš výsledek naznačuje, že významně vyšší frakce alternativně sestříhaných exonů v lidském genomu nemůže projít testem poměru Ka / Ks. To se však okamžitě nepromítá do zvýšené falešně negativní rychlosti testu poměru Ka / Ks v alternativně Spojených exonech, protože jsou možné jiné interpretace. Znamenají tyto údaje ve skutečnosti, že značný počet alternativně sestříhaných exonů pozorovaných v sekvencích lidských EST nepředstavuje skutečné exony, ale skutečně pochází z artefaktů v datech EST (např. vzácné spliceozomální chyby) (Modrek a Lee, 2002; Sorek a bezpečnější, 2003)? Toto vysvětlení se jeví jako zvláště věrohodné pro exony menší formy (které jsou pozorovány v malém zlomku est sekvencí). Otestovat tuto možnost, analyzovali jsme podmnožinu alternativně Spojených exonů, které byly podporovány sekvencemi mRNA v plné délce. Pozorovali jsme podobné frakce alternativně Spojených exonů, které selhaly při testu poměru Ka / Ks (Tabulka 2). Proto, falešné exony pocházející z artefaktů EST nemohou vysvětlit naše data. Představují alternativně sestříhané exony, které selhaly v testu poměru Ka / Ks, do značné míry nefunkční spojovací formy? Abychom odpověděli na tuto otázku, omezili jsme naši analýzu na soubor 120 exonů, které byly alternativně spojeny v lidských i myších transkriptomech. Takový vzorec „alternativního sestřihu předků“ byl široce přijat jako kritérium pro funkční alternativní sestřihové události (Resch et al., 2004; Sorek a kol., 2004a). V těchto exonech ještě vyšší 49,2% (oproti 22,3% všech alternativně sestříhaných exonů) nemohlo projít testem poměru Ka / Ks (Tabulka 1), v souladu s jinou nedávnou studií o takových exonech (Ohler et al ., 2005). Hypotéza nefunkčních spojovacích forem proto také nemůže vysvětlit naše data. Nakonec, abychom vyloučili potenciální vliv CPG ostrovů, vypočítali jsme frekvenci CpG nad GpC v každém exonu a omezili naši analýzu na podmnožinu alternativně sestříhaných exonů, jejichž poměry CpG / GpC byly <0,8 (Iida a Akashi, 2000). Z těchto exonů 20,8% nemohlo projít touto zkouškou, podobně jako procento pro celkovou sadu alternativně sestříhaných exonů (Tabulka 1). Ačkoli v zásadě zvýšený poměr Ka / Ks může odrážet různé základní mechanismy,které nejsou předmětem tohoto rukopisu, naše kontrolní analýzy naznačují, že velká část funkčních alternativních exonů v lidském genomu selže v testu poměru Ka/Ks.
konstitutivní exony převyšují alternativně sestříhané exony ve většině genů kódujících proteiny. Protože v mnoha organismech je pokrytí sekvencí transkriptu (např. est) stále poměrně nízké, test poměru Ka / Ks je výkonným nástrojem pro zpřesnění výpočetních předpovědí struktury genů. Většina genů kódujících savčí proteiny je však alternativně spojena a malý počet alternativně sestříhaných exonů může mít hluboké funkční a regulační dopady, jak nedávno ilustroval alternativní sestřih domény C2A Piccolo (Garcia et al ., 2004) a mnoho dalších. Naše analýza naznačuje, že u organismů s rozsáhlým alternativním sestřihem (např. savců) je vhodnější kombinovat test poměru Ka / Ks s jinými metrikami, které naznačují pravděpodobnost alternativního sestřihu. Naštěstí evoluční genomika také vrhla světlo na typické rysy funkčních alternativně Spojených exonů, které byly úspěšně použity v předpovědích (Philipps et al., 2004; Sorek a kol., 2004b; Yeo et al., 2005). Tyto informace mohou být integrovány s testem poměru Ka / Ks pro přesnější hodnocení potenciálů genomických oblastí kódujících proteiny.
test poměru Ka / Ks na konstitutivních a alternativně Spojených exonech různých velikostí. A) konstitutivní exony a B) alternativně sestříhané exony.
test poměru Ka / Ks na konstitutivních a alternativně Spojených exonech různých velikostí. A) konstitutivní exony a B) alternativně sestříhané exony.
exony, které projdou nebo neprošly testem poměru Ka / Ks
typy exonů . | celkem # . | průměrná délka (bp). | # selhat. | # projít . | % selhání . | průměr (medián) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutivní | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativní | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hlavní forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
typy exonů . | celkem # . | průměrná délka (bp). | # selhat. | # projít . | % selhání . | průměr (medián) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutivní | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativní | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hlavní forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (střední forma) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Moll-forma) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
exony, které projdou nebo neprošly testem poměru Ka / Ks
typy exonů . | celkem # . | průměrná délka (bp). | # selhat. | # projít . | % selhání . | průměr (medián) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutivní | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativní | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hlavní forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
typy exonů . | celkem # . | průměrná délka (bp). | # selhat. | # projít . | % selhání . | průměr (medián) Ka/Ks . |
---|---|---|---|---|---|---|
konstitutivní | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternativní | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (hlavní forma) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (střední forma) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Moll-forma) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
exony podporované lidskými mRNA, které projdou nebo selžou testem poměru Ka / Ks
typy exonů . | celkem # . | # selhat. | # projít . | % selhání . |
---|---|---|---|---|
konstitutivní | 10 524 | 1017 | 9507 | 9.7 |
alternativní | 811 | 158 | 653 | 19.5 |
Alt (hlavní forma) | 618 | 99 | 519 | 16.0 |
Alt (střední forma) | 170 | 39 | 131 | 22.9 |
Alt (Moll-forma) | 23 | 20 | 3 | 87.0 |
typy exonů . | celkem # . | # selhat. | # projít . | % selhání . |
---|---|---|---|---|
Konstitutivní | 10 524 | 1017 | 9507 | 9.7 |
Alternativní | 811 | 158 | 653 | 19.5 |
Alt (hlavní forma) | 618 | 99 | 519 | 16.0 |
Alt (střední forma) | 170 | 39 | 131 | 22.9 |
Alt (Moll-forma) | 23 | 20 | 3 | 87.0 |
exony podporované lidskými mRNA, které projdou nebo selžou testem poměru Ka / Ks
typy exonů . | celkem # . | # selhat. | # projít . | % selhání . |
---|---|---|---|---|
konstitutivní | 10 524 | 1017 | 9507 | 9.7 |
alternativní | 811 | 158 | 653 | 19.5 |
Alt (hlavní forma) | 618 | 99 | 519 | 16.0 |
Alt (střední forma) | 170 | 39 | 131 | 22.9 |
Alt (Moll-forma) | 23 | 20 | 3 | 87.0 |
typy exonů . | celkem # . | # selhat. | # projít . | % selhání . |
---|---|---|---|---|
Konstitutivní | 10 524 | 1017 | 9507 | 9.7 |
Alternativní | 811 | 158 | 653 | 19.5 |
Alt (hlavní forma) | 618 | 99 | 519 | 16.0 |
Alt (střední forma) | 170 | 39 | 131 | 22.9 |
Alt (Moll-forma) | 23 | 20 | 3 | 87.0 |
autoři děkují Antonu Nekrutenkovi za přečtení našeho rukopisu a za užitečné komentáře. Tato práce byla podpořena NIH Grant U54-RR021813, a Teacher-Scholar award to C. J. L. od Nadace Dreyfus, grant Doe DE-FC02-02ER63421. Y. X. je podporován Ph.D. disertační stipendium z UCLA.
střet zájmů: žádný nebyl vyhlášen.
Boue, S., et al.
alternativní sestřih a evoluce.
-1034
Filip, L. C. a Mundy, N. I.
rychlý vývoj pozitivní darwinovskou selekcí v extracelulární doméně hojného lymfocytárního proteinu CD45 u primátů.
-1511
Garcia, J., et al.
konformační přepínač v doméně Piccolo C2A regulovaný alternativním sestřihem.
-53
Hurst, L. D. a Pal, C.
důkazy pro čištění selekce působící na tichých místech v BRCA1.
-65
Iida, K. a Akashi, h.
test translační selekce na „tichých“ místech v lidském genomu: srovnání složení bází v alternativně Spojených genech.
-105
Johnson, J. M. a kol.
celý genomový průzkum alternativního sestřihu lidské pre-mRNA s mikroarrays exon junction.
-2144
Kellis, M., et al.
sekvenování a porovnání druhů kvasinek k identifikaci genů a regulačních prvků.
-254
Lareau, L. F. a kol.
vyvíjející se role alternativního sestřihu.
-282
Lewis, B. P. a kol.
důkazy pro rozšířené spojení alternativního sestřihu a rozpadu mRNA zprostředkovaného nesmysly u lidí.
-192
Miller, W., et al.
srovnávací genomika.
-56
Modrek, B. a Lee, C.
genomický pohled na alternativní sestřih.
-19
Modrek, B. a Lee, C.
alternativní sestřih v genomu člověka, myši a krysy je spojen se zvýšenou rychlostí tvorby/ztráty exonu.
-180
Modrek, B., et al.
genomová analýza alternativního sestřihu pomocí lidských exprimovaných sekvenčních dat.
-2859
Nekrutenko, a.
sladění čísel: ESTs versus geny kódující proteiny.
-1282
Nekrutenko, A., et al.
test poměru K(A)/K(S) pro hodnocení potenciálu kódujícího proteiny genomických oblastí: empirická a simulační studie.
-202
Nekrutenko, A., et al.
ETOPE: evoluční test předpokládaných exonů.
-3567
Nekrutenko, A., et al.
evoluční přístup odhaluje vysokou kapacitu lidského genomu kódující proteiny.
-310
Ohler, U., et al.
rozpoznávání neznámých konzervovaných alternativně Spojených exonů.
Pan, Q., et al.
odhalení globálních regulačních rysů alternativního sestřihu savců pomocí kvantitativní platformy microarray.
-941
Philipps, D. L., et al.
výpočetní a experimentální přístup k a priori identifikaci alternativně Spojených exonů.
-1844
Resch, A., et al.
důkazy pro subpopulaci konzervovaných alternativních sestřihových událostí pod selekčním tlakem pro zachování rámce čtení bílkovin.
-1269
Sorek, R. a Ast, G.
Intronické sekvence lemující alternativně sestříhané exony jsou zachovány mezi člověkem a myší.
-1637
Sorek, R. a Safer, H. M.
nový algoritmus pro výpočetní identifikaci kontaminovaných knihoven EST.
-1074
Sorek, R., et al.
exony obsahující Alu jsou alternativně spojeny.
-1067
Sorek, R., et al.
jak převládá funkční alternativní sestřih v lidském genomu?
-71
Sorek, R., et al.
non-est-based metoda pro exon-přeskakování predikce.
-1623
Thompson, J. D. a kol.
CLUSTAL W: zlepšení citlivosti progresivního zarovnání více sekvencí pomocí vážení sekvencí, penalizace mezer specifické pro polohu a volba matice hmotnosti.
-4680
Xing, y. a Lee, C.
negativní selekční tlak proti předčasnému zkrácení proteinu je snížen jak alternativním sestřihem, tak diploidií.
-475
jang, z.
PAML: programový balíček pro fylogenetickou analýzu podle maximální pravděpodobnosti.
-556
Yeo, G. W. a kol.
identifikace a analýza alternativních sestřihových událostí konzervovaných u člověka a myší.
-2855
Zhang, z. a Gerstein, m.
rozsáhlá analýza pseudogenů v lidském genomu.
–335