hodnocení aplikace testu poměru Ka / Ks na alternativně sestříhané exony

Abstrakt

shrnutí: nedávno byl navržen a úspěšně použit test poměru Ka/Ks, který hodnotí potenciály kódující proteiny genomických oblastí na základě jejich nesynynonymních až synonymních divergenčních sazeb v genomových anotacích eukaryot. Systematicky jsme prováděli test poměru Ka / Ks na 925 transkriptově potvrzených alternativně Spojených exonech v lidském genomu, které popisujeme v tomto rukopisu. Zjistili jsme, že 22.3% evolučně konzervovaných alternativně Spojených exonů nemůže projít testem poměru Ka/Ks, ve srovnání s 9.8% pro konstitutivní exony. Falešně negativní míra byla nejvyšší (85,7%) pro exony s nízkými frekvencemi zahrnutí přepisu. Analýzy alternativně sestříhaných exonů podporovaných sekvencemi mRNA v plné délce přinesly podobné výsledky, a téměř polovina exonů zapojených do událostí alternativního sestřihu předků nemohla projít tímto testem. Naše analýza navrhuje budoucí směr začlenit srovnávací předpovědi alternativního sestřihu založené na genomice s testem poměru Ka / Ks u vyšších eukaryot s rozsáhlým alternativním sestřihem RNA.

Contact:[email protected]

1 Úvod

srovnávací genomika poskytla výkonné nástroje pro anotace eukaryotických genomů (Kellis et al., 2003). V průkopnické studii Nekrutenko et al. (2002) navrhl „test poměru Ka/Ks“ k posouzení potenciálů kódujících proteiny předpokládaných exonů. Tento test je založen na předpokladu, že většina oblastí kódujících proteiny v lidském genomu je během evoluce silně očištěna. Výsledkem je, že jejich míra synonymní divergence (Ks) výrazně převyšuje míru nesynchronní divergence (Ka), čímž se získá poměr Ka/Ks mnohem menší než jeden v porovnání ortologních sekvencí člověka a myši. Na vzorku 1244 exonů ze 153 genů kódujících proteiny poskytl test poměru Ka / Ks 8% falešně negativní rychlost a <5% falešně pozitivní rychlost pro vnitřní exony, přesnost, která byla lepší než většina nástrojů pro predikci genů (Nekrutenko et al ., 2002). Od svého zavedení byl test poměru Ka / Ks široce a úspěšně používán pro zlepšení anotací lidských a jiných savčích genomů (Miller et al ., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang and Gerstein, 2004).

jedna vznikající otázka týkající se testu poměru Ka/Ks se týká alternativně Spojených exonů v eukaryotických genomech. Nedávné studie exprimovaných sekvencí a dat microarray ukázaly, že alternativní sestřih je rozšířeným mechanismem regulace genů u vyšších eukaryot (Lareau et al., 2004; Modrek a Lee, 2002). Až tři čtvrtiny lidských kódujících genů podléhají alternativnímu sestřihu (Johnson et al ., 2003). Existuje mnoho důkazů, které naznačují, že alternativní sestřih je spojen s uvolněním selekčního tlaku během evoluce (Boue et al ., 2003). Například je pozorováno, že alternativní sestřih je spojen se zrychlenou rychlostí tvorby a ztráty exonu (Modrek a Lee, 2003), nové exony pocházejí z alu prvků (Sorek et al., 2002), tolerance kodonů předčasného ukončení (Lewis et al., 2003; Xing a Lee, 2004), a tak dále. Iida a Akashi (2000) zkoumali sekvenční divergenční vzory 110 alternativně sestříhaných genů kódujících proteiny z člověka a Drosophily a zjistili, že alternativně Spojené oblasti těchto genů měly vyšší hodnoty Ka / Ks ve srovnání s konstitutivními oblastmi. Byly také hlášeny další příklady zvýšených Ka/Ks v alternativně Spojených exonech (Filip a Mundy, 2004; Hurst a Pal, 2001). Tato pozorování vyvolávají otázku týkající se odchylky od testu poměru Ka / Ks mezi alternativně spojenými exony.

2 metody

identifikovali jsme alternativně Spojené exony zarovnáním lidských exprimovaných sekvencí s lidským genomem (Modrek et al., 2001). Kvantifikovat stupeň alternativního sestřihu pro každý alternativně sestříhaný exon, použili jsme standardní metriku alternativního sestřihu-úroveň inkluze exonu, definovaný jako počet Estů, které zahrnovaly exon děleno celkovým počtem Estů, které tento exon zahrnovaly nebo přeskočily. Rozdělili jsme alternativně sestříhané exony do tří tříd na základě jejich úrovní zařazení: major-form (>2/3), medium-form (mezi 1/3 a 2/3) a minor-form (<1/3).

identifikovali jsme orthologní exonovou sekvenci pro každý lidský exon v genomové sekvenci myšího orthologa, jak bylo dříve popsáno (Modrek a Lee, 2003). Pro každý ortologní exon sekvenční pár člověk-myš jsme provedli test poměru Ka / Ks podle protokolu Nekrutenko et al. (2003a). Stručně řečeno, ortologní exonové sekvence z člověka a myši byly přeloženy a poté zarovnány pomocí CLUSTALW Thompson et al., 1994 podle výchozích parametrů. Toto zarovnání proteinů bylo použito k osazení zarovnání odpovídajících nukleotidových sekvencí a mezery v zarovnání byly oříznuty. Odhadli jsme počet synonymních a nesynonymních substitucí / stránek pomocí odhadů Yang–Nielsen z programu YN00 balíčku PAML (PAML 3.14) (Yang, 1997). Vytvořili jsme kontingenční tabulku 2 × 2 pomocí počtu změněných a nezměněných synonymních / nesynchronních webů a testovali jsme, zda byl poměr Ka/Ks významně <1 pomocí Fisherova přesného testu. Exon jsme definovali jako absolvování testu poměru Ka / Ks, pokud byl jeho Ka/Ks významně <1 na úrovni P < 0,05.

3 výsledky a diskuse

sestavili jsme seznam 925 lidských alternativně sestříhaných exonů, které byly konzervovány mezi lidským a myším genomem, na základě analýz lidských exprimovaných sekvencí (Modrek et al ., 2001). Také jsme sestavili seznam 10 996 lidských konstitutivních exonů jako kontroly. Všechny tyto exony byly vnitřní exony lemované introny na obou koncích. Na těchto exonech jsme provedli testy poměru Ka/Ks podle protokolu (Nekrutenko et al., 2003a) (viz část metody). Z konstitutivních exonů 9.8% neprošlo testem poměru Ka / Ks, což je poměr podobný tomu, co bylo hlášeno v počáteční studii (8%) (Nekrutenko et al., 2002) (Tabulka 1). Naproti tomu 22,3% testovaných alternativně sestříhaných exonů nemohlo projít testem poměru Ka / Ks, což je více než 2násobné zvýšení ve srovnání s konstitutivními exony. Protože alternativně Spojené exony s různými úrovněmi inkluze exonů (viz definice v sekci metody) vykazovaly různé vzorce evoluční divergence (Modrek a Lee, 2003; Pan et al. , 2004, rozdělili jsme 925 alternativně sestříhaných exonů do tří tříd na základě jejich úrovní zahrnutí exonů (viz část metody). Podíl exonů, u nichž test selhal, byl 16,0% pro exony velké formy a zvýšil se na 85,7% pro alternativní exony menší formy (zahrnuto <1/3 v transkriptech). Protože alternativně sestříhané exony byly v průměru kratší, rozdělili jsme také exony na základě jejich velikostí (obr. 1). U konstitutivních i alternativně sestříhaných exonů byly frakce, které selhaly při testu, vyšší u kratších exonů, v souladu s původní studií Nekrutenko et al., 2002. Avšak frakce byla trvale vyšší v alternativně Spojených exonech po kontrole velikostí exonů (např. 5,4% pro konstitutivní exony a 16,6% pro alternativně sestříhané exony mezi 101 a 150 nt; obr. 1). Analýzy exonů alternativně sestříhaných myší v porovnání myš–člověk přinesly podobné výsledky (údaje nejsou zobrazeny).

náš výsledek naznačuje, že významně vyšší frakce alternativně sestříhaných exonů v lidském genomu nemůže projít testem poměru Ka / Ks. To se však okamžitě nepromítá do zvýšené falešně negativní rychlosti testu poměru Ka / Ks v alternativně Spojených exonech, protože jsou možné jiné interpretace. Znamenají tyto údaje ve skutečnosti, že značný počet alternativně sestříhaných exonů pozorovaných v sekvencích lidských EST nepředstavuje skutečné exony, ale skutečně pochází z artefaktů v datech EST (např. vzácné spliceozomální chyby) (Modrek a Lee, 2002; Sorek a bezpečnější, 2003)? Toto vysvětlení se jeví jako zvláště věrohodné pro exony menší formy (které jsou pozorovány v malém zlomku est sekvencí). Otestovat tuto možnost, analyzovali jsme podmnožinu alternativně Spojených exonů, které byly podporovány sekvencemi mRNA v plné délce. Pozorovali jsme podobné frakce alternativně Spojených exonů, které selhaly při testu poměru Ka / Ks (Tabulka 2). Proto, falešné exony pocházející z artefaktů EST nemohou vysvětlit naše data. Představují alternativně sestříhané exony, které selhaly v testu poměru Ka / Ks, do značné míry nefunkční spojovací formy? Abychom odpověděli na tuto otázku, omezili jsme naši analýzu na soubor 120 exonů, které byly alternativně spojeny v lidských i myších transkriptomech. Takový vzorec „alternativního sestřihu předků“ byl široce přijat jako kritérium pro funkční alternativní sestřihové události (Resch et al., 2004; Sorek a kol., 2004a). V těchto exonech ještě vyšší 49,2% (oproti 22,3% všech alternativně sestříhaných exonů) nemohlo projít testem poměru Ka / Ks (Tabulka 1), v souladu s jinou nedávnou studií o takových exonech (Ohler et al ., 2005). Hypotéza nefunkčních spojovacích forem proto také nemůže vysvětlit naše data. Nakonec, abychom vyloučili potenciální vliv CPG ostrovů, vypočítali jsme frekvenci CpG nad GpC v každém exonu a omezili naši analýzu na podmnožinu alternativně sestříhaných exonů, jejichž poměry CpG / GpC byly <0,8 (Iida a Akashi, 2000). Z těchto exonů 20,8% nemohlo projít touto zkouškou, podobně jako procento pro celkovou sadu alternativně sestříhaných exonů (Tabulka 1). Ačkoli v zásadě zvýšený poměr Ka / Ks může odrážet různé základní mechanismy,které nejsou předmětem tohoto rukopisu, naše kontrolní analýzy naznačují, že velká část funkčních alternativních exonů v lidském genomu selže v testu poměru Ka/Ks.

konstitutivní exony převyšují alternativně sestříhané exony ve většině genů kódujících proteiny. Protože v mnoha organismech je pokrytí sekvencí transkriptu (např. est) stále poměrně nízké, test poměru Ka / Ks je výkonným nástrojem pro zpřesnění výpočetních předpovědí struktury genů. Většina genů kódujících savčí proteiny je však alternativně spojena a malý počet alternativně sestříhaných exonů může mít hluboké funkční a regulační dopady, jak nedávno ilustroval alternativní sestřih domény C2A Piccolo (Garcia et al ., 2004) a mnoho dalších. Naše analýza naznačuje, že u organismů s rozsáhlým alternativním sestřihem (např. savců) je vhodnější kombinovat test poměru Ka / Ks s jinými metrikami, které naznačují pravděpodobnost alternativního sestřihu. Naštěstí evoluční genomika také vrhla světlo na typické rysy funkčních alternativně Spojených exonů, které byly úspěšně použity v předpovědích (Philipps et al., 2004; Sorek a kol., 2004b; Yeo et al., 2005). Tyto informace mohou být integrovány s testem poměru Ka / Ks pro přesnější hodnocení potenciálů genomických oblastí kódujících proteiny.

obr. 1

test poměru Ka / Ks na konstitutivních a alternativně Spojených exonech různých velikostí. A) konstitutivní exony a B) alternativně sestříhané exony.

obr. 1

test poměru Ka / Ks na konstitutivních a alternativně Spojených exonech různých velikostí. A) konstitutivní exony a B) alternativně sestříhané exony.

Tabulka 1

exony, které projdou nebo neprošly testem poměru Ka / Ks

typy exonů . celkem # . průměrná délka (bp). # selhat. # projít . % selhání . průměr (medián) Ka/Ks .
konstitutivní 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativní 925 122 206 719 22.3 0.199 (0.094)
Alt (hlavní forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
typy exonů . celkem # . průměrná délka (bp). # selhat. # projít . % selhání . průměr (medián) Ka/Ks .
konstitutivní 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativní 925 122 206 719 22.3 0.199 (0.094)
Alt (hlavní forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (střední forma) 253 129 69 184 27.3 0.235 (0.113)
Alt (Moll-forma) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabulka 1

exony, které projdou nebo neprošly testem poměru Ka / Ks

typy exonů . celkem # . průměrná délka (bp). # selhat. # projít . % selhání . průměr (medián) Ka/Ks .
konstitutivní 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativní 925 122 206 719 22.3 0.199 (0.094)
Alt (hlavní forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
typy exonů . celkem # . průměrná délka (bp). # selhat. # projít . % selhání . průměr (medián) Ka/Ks .
konstitutivní 10 996 136 1077 9919 9.8 0.146 (0.070)
alternativní 925 122 206 719 22.3 0.199 (0.094)
Alt (hlavní forma) 630 121 101 529 16.0 0.162 (0.086)
Alt (střední forma) 253 129 69 184 27.3 0.235 (0.113)
Alt (Moll-forma) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabulka 2

exony podporované lidskými mRNA, které projdou nebo selžou testem poměru Ka / Ks

typy exonů . celkem # . # selhat. # projít . % selhání .
konstitutivní 10 524 1017 9507 9.7
alternativní 811 158 653 19.5
Alt (hlavní forma) 618 99 519 16.0
Alt (střední forma) 170 39 131 22.9
Alt (Moll-forma) 23 20 3 87.0
typy exonů . celkem # . # selhat. # projít . % selhání .
Konstitutivní 10 524 1017 9507 9.7
Alternativní 811 158 653 19.5
Alt (hlavní forma) 618 99 519 16.0
Alt (střední forma) 170 39 131 22.9
Alt (Moll-forma) 23 20 3 87.0
Tabulka 2

exony podporované lidskými mRNA, které projdou nebo selžou testem poměru Ka / Ks

typy exonů . celkem # . # selhat. # projít . % selhání .
konstitutivní 10 524 1017 9507 9.7
alternativní 811 158 653 19.5
Alt (hlavní forma) 618 99 519 16.0
Alt (střední forma) 170 39 131 22.9
Alt (Moll-forma) 23 20 3 87.0
typy exonů . celkem # . # selhat. # projít . % selhání .
Konstitutivní 10 524 1017 9507 9.7
Alternativní 811 158 653 19.5
Alt (hlavní forma) 618 99 519 16.0
Alt (střední forma) 170 39 131 22.9
Alt (Moll-forma) 23 20 3 87.0

autoři děkují Antonu Nekrutenkovi za přečtení našeho rukopisu a za užitečné komentáře. Tato práce byla podpořena NIH Grant U54-RR021813, a Teacher-Scholar award to C. J. L. od Nadace Dreyfus, grant Doe DE-FC02-02ER63421. Y. X. je podporován Ph.D. disertační stipendium z UCLA.

střet zájmů: žádný nebyl vyhlášen.

Boue, S., et al.

2003

alternativní sestřih a evoluce.

Bioeseje
25
1031

-1034

Filip, L. C. a Mundy, N. I.

2004

rychlý vývoj pozitivní darwinovskou selekcí v extracelulární doméně hojného lymfocytárního proteinu CD45 u primátů.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J., et al.

2004

konformační přepínač v doméně Piccolo C2A regulovaný alternativním sestřihem.

Nat. Struct. Molo. Biol.
11
45

-53

Hurst, L. D. a Pal, C.

2001

důkazy pro čištění selekce působící na tichých místech v BRCA1.

Trendy Genet.
17
62

-65

Iida, K. a Akashi, h.

2000

test translační selekce na „tichých“ místech v lidském genomu: srovnání složení bází v alternativně Spojených genech.

Gen
261
93

-105

Johnson, J. M. a kol.

2003

celý genomový průzkum alternativního sestřihu lidské pre-mRNA s mikroarrays exon junction.

věda
302
2141

-2144

Kellis, M., et al.

2003

sekvenování a porovnání druhů kvasinek k identifikaci genů a regulačních prvků.

Příroda
423
241

-254

Lareau, L. F. a kol.

2004

vyvíjející se role alternativního sestřihu.

Obr. Opine. Struct. Biol.
14
273

-282

Lewis, B. P. a kol.

2003

důkazy pro rozšířené spojení alternativního sestřihu a rozpadu mRNA zprostředkovaného nesmysly u lidí.

Proc. Natl Acad. Věda. USA
100
189

-192

Miller, W., et al.

2004

srovnávací genomika.

ročně. Rev. Genomika Hučí. Genete.
5
15

-56

Modrek, B. a Lee, C.

2002

genomický pohled na alternativní sestřih.

Nat. Genete.
30
13

-19

Modrek, B. a Lee, C.

2003

alternativní sestřih v genomu člověka, myši a krysy je spojen se zvýšenou rychlostí tvorby/ztráty exonu.

Nat. Genete.
34
177

-180

Modrek, B., et al.

2001

genomová analýza alternativního sestřihu pomocí lidských exprimovaných sekvenčních dat.

nukleové kyseliny Res.
29
2850

-2859

Nekrutenko, a.

2004

sladění čísel: ESTs versus geny kódující proteiny.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

test poměru K(A)/K(S) pro hodnocení potenciálu kódujícího proteiny genomických oblastí: empirická a simulační studie.

genom Res.
12
198

-202

Nekrutenko, A., et al.

2003

ETOPE: evoluční test předpokládaných exonů.

Nukleové Kyseliny Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

evoluční přístup odhaluje vysokou kapacitu lidského genomu kódující proteiny.

Trendy Genet.
19
306

-310

Ohler, U., et al.

2005

rozpoznávání neznámých konzervovaných alternativně Spojených exonů.

PLoS Comp. Biol.
1
e15

Pan, Q., et al.

2004

odhalení globálních regulačních rysů alternativního sestřihu savců pomocí kvantitativní platformy microarray.

Mol. Buňka.
16
929

-941

Philipps, D. L., et al.

2004

výpočetní a experimentální přístup k a priori identifikaci alternativně Spojených exonů.

RNA
10
1838

-1844

Resch, A., et al.

2004

důkazy pro subpopulaci konzervovaných alternativních sestřihových událostí pod selekčním tlakem pro zachování rámce čtení bílkovin.

nukleové kyseliny Res.
32
1261

-1269

Sorek, R. a Ast, G.

2003

Intronické sekvence lemující alternativně sestříhané exony jsou zachovány mezi člověkem a myší.

genom Res.
13
1631

-1637

Sorek, R. a Safer, H. M.

2003

nový algoritmus pro výpočetní identifikaci kontaminovaných knihoven EST.

nukleové kyseliny Res.
31
1067

-1074

Sorek, R., et al.

2002

exony obsahující Alu jsou alternativně spojeny.

genom Res.
12
1060

-1067

Sorek, R., et al.

2004

jak převládá funkční alternativní sestřih v lidském genomu?

trendy Genet
20
68

-71

Sorek, R., et al.

2004

non-est-based metoda pro exon-přeskakování predikce.

genom Res.
14
1617

-1623

Thompson, J. D. a kol.

1994

CLUSTAL W: zlepšení citlivosti progresivního zarovnání více sekvencí pomocí vážení sekvencí, penalizace mezer specifické pro polohu a volba matice hmotnosti.

Nukleové Kyseliny Res.
22
4673

-4680

Xing, y. a Lee, C.

2004

negativní selekční tlak proti předčasnému zkrácení proteinu je snížen jak alternativním sestřihem, tak diploidií.

Trendy Genet.
20
472

-475

jang, z.

1997

PAML: programový balíček pro fylogenetickou analýzu podle maximální pravděpodobnosti.

Komput. Appl. Biosci.
13
555

-556

Yeo, G. W. a kol.

2005

identifikace a analýza alternativních sestřihových událostí konzervovaných u člověka a myší.

Proc. Natl Acad. Věda. USA
102
2850

-2855

Zhang, z. a Gerstein, m.

2004

rozsáhlá analýza pseudogenů v lidském genomu.

Obr. Opine. Genete. Rozvoj.
14
328

–335

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.