ocena zastosowania testu stosunku Ka/Ks do alternatywnie splicowanych eksonów

Streszczenie

podsumowanie: niedawno zaproponowano i z powodzeniem zastosowano test stosunku Ka/Ks, który ocenia potencjał kodujący białka regionów genomowych w oparciu o ich niezwiązane z synonimicznymi współczynnikami rozbieżności, w adnotacjach genomu eukariotów. Systematycznie przeprowadzaliśmy test stosunku Ka / Ks na potwierdzonych transkrypcją 925 egzonach w ludzkim genomie, które opisujemy w tym manuskrypcie. Odkryliśmy, że 22,3% ewolucyjnie konserwowanych alternatywnie splicowanych egzonów nie może przejść testu stosunku Ka/Ks, w porównaniu z 9,8% dla egzonów konstytutywnych. Wskaźnik fałszywie ujemny był najwyższy (85,7%) dla eksonów z niską częstotliwością włączenia transkryptu. Analizy alternatywnie splicowanych eksonów wspieranych przez pełnowymiarowe sekwencje mRNA dały podobne wyniki, a prawie połowa egzonów biorących udział w alternatywnych zdarzeniach splicingu przodków nie mogła przejść tego testu. Nasza analiza sugeruje przyszły kierunek włączenia opartych na genomice porównawczych alternatywnych prognoz splicingu z testem stosunku Ka / Ks u wyższych eukariotów z rozległym alternatywnym splicingiem RNA.

Contact:[email protected]

1 Wprowadzenie

genomika porównawcza dostarczyła potężnych narzędzi do adnotacji genomów eukariotycznych (Kellis et al., 2003). W pionierskim badaniu Nekrutenko et al. (2002) zaproponował „Test stosunku Ka/Ks” w celu oceny potencjału kodującego białko przewidywanych eksonów. Test ten opiera się na założeniu, że większość regionów kodujących białka w ludzkim genomie jest poddawana silnej selekcji oczyszczającej podczas ewolucji. W rezultacie ich wskaźniki rozbieżności synonimicznej (Ks) znacznie przewyższają wskaźniki rozbieżności niezwiązanej (Ka), dając stosunek Ka/Ks znacznie mniejszy niż jeden w porównaniach sekwencji ortologicznych człowiek-mysz. Na próbie 1244 eksonów z 153 genów kodujących białko, test stosunku Ka / Ks dał 8% fałszywie ujemny wskaźnik i <5% fałszywie dodatni wskaźnik dla eksonów wewnętrznych, dokładność, która była lepsza niż większość narzędzi do przewidywania genów(Nekrutenko et al., 2002). Od czasu jego wprowadzenia test stosunku Ka / Ks był szeroko i z powodzeniem stosowany do poprawy adnotacji genomów ludzkich i innych ssaków(Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang and Gerstein, 2004).

jedno z pojawiających się pytań dotyczących testu stosunku Ka / Ks dotyczy alternatywnie splicowanych eksonów w genomach eukariotycznych. Ostatnie badania ekspresji sekwencji i danych mikromacierzy wykazały, że alternatywne splicing jest powszechnym mechanizmem regulacji genów u wyższych eukariotów (Lareau et al., 2004; Modrek i Lee, 2002). Do trzech czwartych ludzkich genów kodujących poddaje się alternatywnemu splicingowi (Johnson et al., 2003). Istnieje obfite dowody sugerujące, że alternatywne splicing jest związany ze złagodzeniem presji selekcji podczas ewolucji(Boue et al., 2003). Na przykład obserwuje się, że alternatywne splicing wiąże się z przyspieszonym tempem tworzenia i utraty egzonu (Modrek and Lee, 2003), nowymi powstawaniem egzonów z elementów Alu (Sorek et al., 2002), tolerancja kodonów przedwczesnego zakończenia (Lewis et al., 2003; Xing and Lee, 2004) i tak dalej. Iida i Akashi (2000) badali wzory dywergencji sekwencji 110 alternatywnie splicowanych genów kodujących białka z ludzi i Drosophila i odkryli, że alternatywnie splicowane regiony tych genów miały wyższe wartości Ka/Ks w porównaniu z regionami konstytutywnymi. Odnotowano również inne przykłady podwyższonego Ka / Ks w egzonach o zmiennym przebiegu (Filip i Mundy, 2004; Hurst i PAL, 2001). Obserwacje te budzą wątpliwości co do rozbieżności między testem stosunku Ka/Ks w egzonach z alternatywnie splatanych.

2 metody

zidentyfikowaliśmy alternatywnie splecione eksony, dopasowując sekwencje ekspresji ludzkiej do ludzkiego genomu (Modrek et al., 2001). Aby obliczyć stopień alternatywnego splicingu dla każdego alternatywnie splicowanego egzonu, użyliśmy standardowej metryki alternatywnego splicingu-poziomu inkluzji egzonu, zdefiniowanego jako liczba est, które zawierały Egzon, podzielona przez całkowitą liczbę est, które zawierały lub pomijały ten Egzon. Exony podzielono na trzy klasy w zależności od ich poziomów inkluzji: dur-form (>2/3), medium-form (między 1/3 a 2/3) i minor-form (<1/3).

zidentyfikowaliśmy sekwencję egzonów ortologicznych dla każdego egzonu ludzkiego w sekwencji genomowej ortologu myszy, jak wcześniej opisano (Modrek and Lee, 2003). Dla każdej pary sekwencji egzonów ortologicznych człowiek-mysz wykonaliśmy test stosunku Ka / Ks zgodnie z protokołem Nekrutenko et al. (2003a). Krótko mówiąc, ortologiczne sekwencje egzonów z ludzi i myszy zostały przetłumaczone, a następnie wyrównane za pomocą CLUSTALW Thompson et al., 1994 w parametrach domyślnych. To wyrównanie białka zostało użyte do wytworzenia wyrównania odpowiednich sekwencji nukleotydowych, a luki w wyrównaniu zostały przycięte. Oszacowaliśmy liczbę synonimicznych i nie-synonimicznych substytucji / stron za pomocą szacunków Yang-Nielsen z programu yn00 pakietu PAML (PAML 3.14) (Yang, 1997). Zbudowaliśmy tabelę awaryjną 2 × 2, wykorzystując liczby zmienionych i niezmienionych stron synonimicznych/nie synonimicznych, i przetestowaliśmy, czy stosunek Ka/Ks był znacząco <1, korzystając z dokładnego testu Fishera. Zdefiniowaliśmy Egzon jako przejście testu stosunku Ka / Ks, jeśli jego Ka/Ks było znacząco <1 na poziomie P < 0,05.

3 Wyniki i dyskusja

zebraliśmy listę 925 ludzkich alternatywnie splecionych eksonów, które zostały zachowane między genomami ludzkim i mysim, w oparciu o analizy sekwencji wyrażonych przez człowieka (Modrek et al., 2001). Sporządziliśmy również listę 10 996 egzonów konstytutywnych człowieka jako kontroli. Wszystkie te egzony były egzonami wewnętrznymi flankowanymi intronami na obu końcach. Przeprowadziliśmy testy współczynnika Ka/Ks na tych eksonach zgodnie z protokołem (Nekrutenko et al., 2003a) (patrz sekcja Metody). Z egzonów konstytucyjnych 9.8% nie zdało testu stosunku Ka / Ks, stosunek podobny do tego, co zostało zgłoszone przez wstępne badanie (8%) (Nekrutenko et al., 2002) (Tabela 1). W przeciwieństwie do tego, 22,3% badanych alternatywnie splicowanych egzonów nie mogło przejść testu stosunku Ka/Ks, co było ponad 2-krotnym wzrostem w porównaniu z egzonami konstytutywnymi. Ponieważ alternatywnie splecione egzony z różnymi poziomami inkluzji egzonów (patrz definicje w sekcji Metody) wykazywały różne wzorce dywergencji ewolucyjnej (Modrek and Lee, 2003; Pan et al., 2004, podzieliliśmy 925 alternatywnie splecionych egzonów na trzy klasy w oparciu o ich poziomy inkluzji egzonów(patrz sekcja Metody). Ułamek eksonów, który nie przeszedł testu, wynosił 16,0% dla eksonów głównych i wzrósł do 85,7% dla eksonów alternatywnych mniejszych (uwzględnionych w transkryptach <1/3). Ponieważ alternatywnie splecione egzony były średnio krótsze, podzieliliśmy również egzony na podstawie ich rozmiarów (rys. 1). Zarówno w egzonach konstytutywnych, jak i alternatywnie splatanych frakcje, które nie przeszły testu, były wyższe dla krótszych egzonów, zgodnie z oryginalnym badaniem Nekrutenko et al., 2002. Jednakże frakcja była konsekwentnie wyższa w egzonach alternatywnie splicowanych po kontrolowaniu wielkości egzonów (np. 5,4% dla egzonów konstytutywnych i 16,6% dla egzonów alternatywnie splicowanych między 101 A 150 nt; Fig. 1). Podobne wyniki przyniosły analizy egzonów mysich z alternatywnie splecionymi egzonami w porównaniu mysz-człowiek (dane nie zostały przedstawione).

nasz wynik wskazuje, że znacznie wyższa frakcja alternatywnie splecionych egzonów w ludzkim genomie nie może przejść testu stosunku Ka/Ks. Nie przekłada się to jednak od razu na zwiększoną fałszywie ujemną stopę testu stosunku Ka/Ks w eksonach z alternatywnie splatanych, ponieważ możliwe są inne interpretacje. Czy te dane rzeczywiście sugerują, że znaczna liczba alternatywnie splicowanych egzonów obserwowanych w ludzkich sekwencjach EST nie reprezentuje rzeczywistych egzonów, ale rzeczywiście pochodzi z artefaktów w danych EST (np. rzadkie błędy spliceosomalne) (Modrek and Lee, 2002; Sorek and Safer, 2003)? Wyjaśnienie to wydaje się szczególnie prawdopodobne dla eksonów o mniejszej formie (które są obserwowane w niewielkim ułamku sekwencji EST). Aby przetestować tę możliwość, przeanalizowaliśmy podzbiór alternatywnie splecionych eksonów, które były wspierane przez sekwencje mRNA o Pełnej długości. Zaobserwowaliśmy podobne frakcje egzonów alternatywnie splicowanych, które nie przeszły testu stosunku Ka / Ks (Tabela 2). Dlatego fałszywe egzony pochodzące z artefaktów EST nie mogą wyjaśnić naszych danych. Czy alternatywnie splicowane egzony, które nie spełniają testu stosunku Ka / Ks, w dużej mierze reprezentują niefunkcjonalne formy splicingu? Aby odpowiedzieć na to pytanie, ograniczyliśmy naszą analizę do zestawu 120 eksonów, które były alternatywnie łączone zarówno w transkryptomach ludzkich, jak i mysich. Taki wzór „ancestral alternative splicing” został powszechnie przyjęty jako kryterium funkcjonalnych alternatywnych zdarzeń splicingu (Resch et al., 2004; Sorek et al., 2004a). W tych eksonach nawet wyższe 49,2% (w porównaniu z 22,3% wszystkich alternatywnie splecionych egzonów) nie mogło przejść testu stosunku Ka/Ks (Tabela 1), zgodnie z innym niedawnym badaniem dotyczącym takich eksonów (Ohler et al., 2005). Dlatego hipoteza dla niefunkcjonalnych form splicingu nie może również wyjaśnić naszych danych. Wreszcie, aby wykluczyć potencjalny wpływ Wysp CpG, obliczyliśmy częstotliwość CpG nad GpC w każdym eksonie i ograniczyliśmy naszą analizę do podzbioru alternatywnie splicowanych eksonów, których stosunek CPG / GpC wynosił <0,8 (Iida and Akashi, 2000). Z tych eksonów 20,8% nie mogło przejść tego testu, podobnie jak odsetek dla całego zestawu alternatywnie połączonych eksonów(Tabela 1). Chociaż w zasadzie zwiększony stosunek Ka / Ks może odzwierciedlać różne podstawowe mechanizmy, które nie są przedmiotem niniejszego manuskryptu, nasze analizy kontrolne wskazują, że duża część funkcjonalnych alternatywnych eksonów w ludzkim genomie nie spełnia testu stosunku Ka / Ks.

Egzony konstytutywne przewyższają w większości genów kodujących białka egzony alternatywnie splecione. Ponieważ w wielu organizmach pokrycie sekwencji transkrypcji (np. ESTs) jest nadal dość niskie, test stosunku Ka / Ks jest potężnym narzędziem do udoskonalania obliczeniowych prognoz struktury genów. Jednak większość genów kodujących białka ssaków jest alternatywnie splicowanych, a niewielka liczba alternatywnie splicowanych egzonów może mieć głęboki wpływ funkcjonalny i regulacyjny, jak ostatnio zilustrowano przez alternatywne splicing domeny C2A Piccolo (Garcia et al., 2004) i wiele innych. Nasza analiza sugeruje, że w organizmach z ekstensywnym alternatywnym splicingiem (np. Ssaki) lepiej jest połączyć test stosunku Ka/Ks z innymi wskaźnikami wskazującymi prawdopodobieństwo alternatywnego splicingu. Na szczęście genomika ewolucyjna rzuciła również światło na typowe cechy funkcjonalnych alternatywnie splicowanych eksonów, które zostały z powodzeniem wykorzystane w prognozach (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Takie informacje mogą być zintegrowane z testem stosunku Ka / Ks w celu dokładniejszej oceny potencjału kodującego białka regionów genomowych.

1

test stosunku Ka / Ks na egzonach konstytutywnych i alternatywnie łączonych o różnych rozmiarach. A) Egzony konstytutywne i B) egzony łączone alternatywnie.

Fig. 1

test stosunku Ka / Ks na egzonach konstytutywnych i alternatywnie łączonych o różnych rozmiarach. A) Egzony konstytutywne i B) egzony łączone alternatywnie.

Tabela 1

Egzony, które przechodzą lub nie przechodzą testu stosunku Ka/Ks

rodzaje egzonów . Total # . średnia długość (bp) . # Fail . # Pass . % Fail . średnia (mediana) Ka/Ks .
konstytutywny 10 996 136 1077 9919 9.8 0.146 (0.070)
alternatywa 925 122 206 719 22.3 0.199 (0.094)
Alt (forma Durowa) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
rodzaje egzonów . Total # . średnia długość (bp) . # Fail . # Pass . % Fail . średnia (mediana) Ka/Ks .
konstytutywny 10 996 136 1077 9919 9.8 0.146 (0.070)
alternatywa 925 122 206 719 22.3 0.199 (0.094)
Alt (forma Durowa) 630 121 101 529 16.0 0.162 (0.086)
Alt (forma Średnia) 253 129 69 184 27.3 0.235 (0.113)
Alt (forma minorowa) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG / GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tabela 1

Egzony, które przechodzą lub nie przechodzą testu stosunku Ka/Ks

rodzaje egzonów . Total # . średnia długość (bp) . # Fail . # Pass . % Fail . średnia (mediana) Ka/Ks .
konstytutywny 10 996 136 1077 9919 9.8 0.146 (0.070)
alternatywa 925 122 206 719 22.3 0.199 (0.094)
Alt (forma Durowa) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
rodzaje egzonów . Total # . średnia długość (bp) . # Fail . # Pass . % Fail . średnia (mediana) Ka/Ks .
konstytutywny 10 996 136 1077 9919 9.8 0.146 (0.070)
alternatywa 925 122 206 719 22.3 0.199 (0.094)
Alt (forma Durowa) 630 121 101 529 16.0 0.162 (0.086)
Alt (forma Średnia) 253 129 69 184 27.3 0.235 (0.113)
Alt (forma minorowa) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG / GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tabela 2

eksony obsługiwane przez ludzkie mRNA, które przechodzą lub nie przechodzą testu stosunku Ka/Ks

rodzaje egzonów . Total # . # Fail . # Pass . % Fail .
konstytutywny 10 524 1017 9507 9.7
alternatywa 811 158 653 19.5
Alt (forma Durowa) 618 99 519 16.0
Alt (forma Średnia) 170 39 131 22.9
Alt (forma minorowa) 23 20 3 87.0
rodzaje egzonów . Total # . # Fail . # Pass . % Fail .
Konstytutywny 10 524 1017 9507 9.7
Alternatywa 811 158 653 19.5
Alt (forma Durowa) 618 99 519 16.0
Alt (forma Średnia) 170 39 131 22.9
Alt (forma minorowa) 23 20 3 87.0
Tabela 2

eksony obsługiwane przez ludzkie mRNA, które przechodzą lub nie przechodzą testu stosunku Ka/Ks

rodzaje egzonów . Total # . # Fail . # Pass . % Fail .
konstytutywny 10 524 1017 9507 9.7
alternatywa 811 158 653 19.5
Alt (forma Durowa) 618 99 519 16.0
Alt (forma Średnia) 170 39 131 22.9
Alt (forma minorowa) 23 20 3 87.0
rodzaje egzonów . Total # . # Fail . # Pass . % Fail .
Konstytutywny 10 524 1017 9507 9.7
Alternatywa 811 158 653 19.5
Alt (forma Durowa) 618 99 519 16.0
Alt (forma Średnia) 170 39 131 22.9
Alt (forma minorowa) 23 20 3 87.0

autorzy dziękują Anton Nekrutenko za przeczytanie naszego manuskryptu i za pomocne komentarze. Praca ta była wspierana przez NIH Grant U54-RR021813, nagrodę dla nauczyciela-uczonego dla C. J. L. Od Fundacji Dreyfusa, dotacja DOE DE-FC02-02ER63421. Y. X. jest wspierany przez Ph. d. dissertation fellowship z UCLA.

konflikt interesów: brak danych.

Boue, S., et al.

2003

alternatywne łączenie i ewolucja.

Bio
25
1031

-1034

Filip, L. C. I Mundy, N. I.

2004

szybka ewolucja poprzez pozytywną selekcję darwinowską w domenie pozakomórkowej obfitego białka limfocytów CD45 u naczelnych.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J., et al.

2004

przełącznik konformacyjny w domenie Piccolo C2A regulowany przez alternatywne splicing.

Nat. Struct. Mol. Biol.
11
45

-53

Hurst, L. D. i Pal, C.

2001

dowody na oczyszczanie selekcji działających na silent sites w BRCA1.

Trendy Genet.
17
62

-65

Iida, K. i Akashi, H.

2000

a test of translational selection at 'silent’ sites in the human genome: base composition comparisons in alternatively splicated genes.

Gen
261
93

-105

Johnson, J. M., et al.

2003

Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.

Nauka
302
2141

-2144

Kellis, M., et al.

2003

sekwencjonowanie i porównanie gatunków drożdży w celu identyfikacji genów i elementów regulacyjnych.

Przyroda
423
241

-254

Lareau, L. F., et al.

2004

ewoluujące role alternatywnego splicingu.

Curr. Opin. Struct. Biol.
14
273

-282

Lewis, B. P., et al.

2003

dowody na powszechne łączenie alternatywnego splicingu i bezsensownego rozpadu mRNA u ludzi.

Proc. Natl Acad. Sci. USA
100
189

-192

Miller, W., et al.

2004

genomika porównawcza.

Rev.Genomics Hum. Genet.
5
15

-56

Modrek B. i Lee C.

2002

genomowy widok alternatywnego splicingu.

Nat. Genet.
30
13

-19

Modrek B. i Lee C.

2003

alternatywne łączenie w genomach człowieka, myszy i szczura wiąże się ze zwiększonym tempem tworzenia/utraty eksonu.

Nat. Genet.
34
177

-180

Modrek B. i in.

2001

analiza genomu alternatywnego splicingu z wykorzystaniem danych sekwencji wyrażonej przez człowieka.

kwasy nukleinowe Res.
29
2850

-2859

Nekrutenko, A.

2004

pogodzenie liczb: ESTs a geny kodujące białka.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

the K(A)/K (s) ratio test for assessing the protein-coding potential of Genom regions: an empirical and simulation study.

Genome Res.
12
198

-202

Nekrutenko, A., et al.

2003

ETOPE: evolutionary test of predicted exons.

Kwasy Nukleinowe Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

ewolucyjne podejście ujawnia wysoką zdolność kodowania białek ludzkiego genomu.

Trendy Genet.
19
306

-310

Ohler, U., et al.

2005

Rozpoznawanie nieznanych zachowanych alternatywnie splicowanych egzonów.

PLoS Comp. Biol.
1
e15

Pan, Q., et al.

2004

ujawnienie globalnych cech regulacyjnych alternatywnego splicingu ssaków przy użyciu ilościowej platformy mikromacierzy.

Mol. Cell.
16
929

-941

Philipps, D. L., et al.

2004

a computational and experimental approach toward a priori identification of alternatively spliced exons.

RNA
10
1838

-1844

Resch, A., et al.

2004

dowody na subpopulację zachowanych alternatywnych zdarzeń splicingu pod presją selekcji dla zachowania ramki odczytu białka.

kwasy nukleinowe Res.
32
1261

-1269

Sorek R. i Ast G.

2003

sekwencje Introniczne flankujące alternatywnie splecione egzony są zachowywane między człowiekiem a myszą.

Genome Res.
13
1631

-1637

Sorek R. i bezpieczniej H. M.

2003

nowatorski algorytm obliczeniowej identyfikacji zanieczyszczonych bibliotek EST.

kwasy nukleinowe Res.
31
1067

-1074

Sorek R., et al.

2002

eksony zawierające Alu są alternatywnie łączone.

Genome Res.
12
1060

-1067

Sorek R., et al.

2004

jak powszechne jest funkcjonalne alternatywne splicing w ludzkim genomie?

Trendy Genet
20
68

-71

Sorek R., et al.

2004

a non-est-based method for exon-pomijanie predykcji.

Genome Res.
14
1617

-1623

Thompson, J. D., et al.

1994

CLUSTAL W: Poprawa czułości progresywnego wyrównania wielu sekwencji poprzez ważenie sekwencji, kary luk specyficznych dla pozycji i wybór macierzy wagi.

Kwasy Nukleinowe Res.
22
4673

-4680

Xing, Y. i Lee, C.

2004

ujemna presja selekcyjna przeciw przedwczesnemu obcinaniu białek jest zmniejszona zarówno przez alternatywne splicing, jak i diploidię.

Trendy Genet.
20
472

-475

Yang, Z.

1997

PAML: a program package for phylogenetic analysis by maximum likelihood.

komput. Appl. Biosci.
13
555

-556

Yeo, G. W., et al.

2005

identyfikacja i analiza alternatywnych zdarzeń splicingu zachowanych u ludzi i myszy.

Proc. Natl Acad. Sci. USA
102
2850

-2855

Zhang, Z. i Gerstein, M.

2004

wielkoskalowa analiza pseudogenów w ludzkim genomie.

Curr. Opin. Genet. Dev.
14
328

–335

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.