Streszczenie
podsumowanie: niedawno zaproponowano i z powodzeniem zastosowano test stosunku Ka/Ks, który ocenia potencjał kodujący białka regionów genomowych w oparciu o ich niezwiązane z synonimicznymi współczynnikami rozbieżności, w adnotacjach genomu eukariotów. Systematycznie przeprowadzaliśmy test stosunku Ka / Ks na potwierdzonych transkrypcją 925 egzonach w ludzkim genomie, które opisujemy w tym manuskrypcie. Odkryliśmy, że 22,3% ewolucyjnie konserwowanych alternatywnie splicowanych egzonów nie może przejść testu stosunku Ka/Ks, w porównaniu z 9,8% dla egzonów konstytutywnych. Wskaźnik fałszywie ujemny był najwyższy (85,7%) dla eksonów z niską częstotliwością włączenia transkryptu. Analizy alternatywnie splicowanych eksonów wspieranych przez pełnowymiarowe sekwencje mRNA dały podobne wyniki, a prawie połowa egzonów biorących udział w alternatywnych zdarzeniach splicingu przodków nie mogła przejść tego testu. Nasza analiza sugeruje przyszły kierunek włączenia opartych na genomice porównawczych alternatywnych prognoz splicingu z testem stosunku Ka / Ks u wyższych eukariotów z rozległym alternatywnym splicingiem RNA.
Contact:[email protected]
1 Wprowadzenie
genomika porównawcza dostarczyła potężnych narzędzi do adnotacji genomów eukariotycznych (Kellis et al., 2003). W pionierskim badaniu Nekrutenko et al. (2002) zaproponował „Test stosunku Ka/Ks” w celu oceny potencjału kodującego białko przewidywanych eksonów. Test ten opiera się na założeniu, że większość regionów kodujących białka w ludzkim genomie jest poddawana silnej selekcji oczyszczającej podczas ewolucji. W rezultacie ich wskaźniki rozbieżności synonimicznej (Ks) znacznie przewyższają wskaźniki rozbieżności niezwiązanej (Ka), dając stosunek Ka/Ks znacznie mniejszy niż jeden w porównaniach sekwencji ortologicznych człowiek-mysz. Na próbie 1244 eksonów z 153 genów kodujących białko, test stosunku Ka / Ks dał 8% fałszywie ujemny wskaźnik i <5% fałszywie dodatni wskaźnik dla eksonów wewnętrznych, dokładność, która była lepsza niż większość narzędzi do przewidywania genów(Nekrutenko et al., 2002). Od czasu jego wprowadzenia test stosunku Ka / Ks był szeroko i z powodzeniem stosowany do poprawy adnotacji genomów ludzkich i innych ssaków(Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang and Gerstein, 2004).
jedno z pojawiających się pytań dotyczących testu stosunku Ka / Ks dotyczy alternatywnie splicowanych eksonów w genomach eukariotycznych. Ostatnie badania ekspresji sekwencji i danych mikromacierzy wykazały, że alternatywne splicing jest powszechnym mechanizmem regulacji genów u wyższych eukariotów (Lareau et al., 2004; Modrek i Lee, 2002). Do trzech czwartych ludzkich genów kodujących poddaje się alternatywnemu splicingowi (Johnson et al., 2003). Istnieje obfite dowody sugerujące, że alternatywne splicing jest związany ze złagodzeniem presji selekcji podczas ewolucji(Boue et al., 2003). Na przykład obserwuje się, że alternatywne splicing wiąże się z przyspieszonym tempem tworzenia i utraty egzonu (Modrek and Lee, 2003), nowymi powstawaniem egzonów z elementów Alu (Sorek et al., 2002), tolerancja kodonów przedwczesnego zakończenia (Lewis et al., 2003; Xing and Lee, 2004) i tak dalej. Iida i Akashi (2000) badali wzory dywergencji sekwencji 110 alternatywnie splicowanych genów kodujących białka z ludzi i Drosophila i odkryli, że alternatywnie splicowane regiony tych genów miały wyższe wartości Ka/Ks w porównaniu z regionami konstytutywnymi. Odnotowano również inne przykłady podwyższonego Ka / Ks w egzonach o zmiennym przebiegu (Filip i Mundy, 2004; Hurst i PAL, 2001). Obserwacje te budzą wątpliwości co do rozbieżności między testem stosunku Ka/Ks w egzonach z alternatywnie splatanych.
2 metody
zidentyfikowaliśmy alternatywnie splecione eksony, dopasowując sekwencje ekspresji ludzkiej do ludzkiego genomu (Modrek et al., 2001). Aby obliczyć stopień alternatywnego splicingu dla każdego alternatywnie splicowanego egzonu, użyliśmy standardowej metryki alternatywnego splicingu-poziomu inkluzji egzonu, zdefiniowanego jako liczba est, które zawierały Egzon, podzielona przez całkowitą liczbę est, które zawierały lub pomijały ten Egzon. Exony podzielono na trzy klasy w zależności od ich poziomów inkluzji: dur-form (>2/3), medium-form (między 1/3 a 2/3) i minor-form (<1/3).
zidentyfikowaliśmy sekwencję egzonów ortologicznych dla każdego egzonu ludzkiego w sekwencji genomowej ortologu myszy, jak wcześniej opisano (Modrek and Lee, 2003). Dla każdej pary sekwencji egzonów ortologicznych człowiek-mysz wykonaliśmy test stosunku Ka / Ks zgodnie z protokołem Nekrutenko et al. (2003a). Krótko mówiąc, ortologiczne sekwencje egzonów z ludzi i myszy zostały przetłumaczone, a następnie wyrównane za pomocą CLUSTALW Thompson et al., 1994 w parametrach domyślnych. To wyrównanie białka zostało użyte do wytworzenia wyrównania odpowiednich sekwencji nukleotydowych, a luki w wyrównaniu zostały przycięte. Oszacowaliśmy liczbę synonimicznych i nie-synonimicznych substytucji / stron za pomocą szacunków Yang-Nielsen z programu yn00 pakietu PAML (PAML 3.14) (Yang, 1997). Zbudowaliśmy tabelę awaryjną 2 × 2, wykorzystując liczby zmienionych i niezmienionych stron synonimicznych/nie synonimicznych, i przetestowaliśmy, czy stosunek Ka/Ks był znacząco <1, korzystając z dokładnego testu Fishera. Zdefiniowaliśmy Egzon jako przejście testu stosunku Ka / Ks, jeśli jego Ka/Ks było znacząco <1 na poziomie P < 0,05.
3 Wyniki i dyskusja
zebraliśmy listę 925 ludzkich alternatywnie splecionych eksonów, które zostały zachowane między genomami ludzkim i mysim, w oparciu o analizy sekwencji wyrażonych przez człowieka (Modrek et al., 2001). Sporządziliśmy również listę 10 996 egzonów konstytutywnych człowieka jako kontroli. Wszystkie te egzony były egzonami wewnętrznymi flankowanymi intronami na obu końcach. Przeprowadziliśmy testy współczynnika Ka/Ks na tych eksonach zgodnie z protokołem (Nekrutenko et al., 2003a) (patrz sekcja Metody). Z egzonów konstytucyjnych 9.8% nie zdało testu stosunku Ka / Ks, stosunek podobny do tego, co zostało zgłoszone przez wstępne badanie (8%) (Nekrutenko et al., 2002) (Tabela 1). W przeciwieństwie do tego, 22,3% badanych alternatywnie splicowanych egzonów nie mogło przejść testu stosunku Ka/Ks, co było ponad 2-krotnym wzrostem w porównaniu z egzonami konstytutywnymi. Ponieważ alternatywnie splecione egzony z różnymi poziomami inkluzji egzonów (patrz definicje w sekcji Metody) wykazywały różne wzorce dywergencji ewolucyjnej (Modrek and Lee, 2003; Pan et al., 2004, podzieliliśmy 925 alternatywnie splecionych egzonów na trzy klasy w oparciu o ich poziomy inkluzji egzonów(patrz sekcja Metody). Ułamek eksonów, który nie przeszedł testu, wynosił 16,0% dla eksonów głównych i wzrósł do 85,7% dla eksonów alternatywnych mniejszych (uwzględnionych w transkryptach <1/3). Ponieważ alternatywnie splecione egzony były średnio krótsze, podzieliliśmy również egzony na podstawie ich rozmiarów (rys. 1). Zarówno w egzonach konstytutywnych, jak i alternatywnie splatanych frakcje, które nie przeszły testu, były wyższe dla krótszych egzonów, zgodnie z oryginalnym badaniem Nekrutenko et al., 2002. Jednakże frakcja była konsekwentnie wyższa w egzonach alternatywnie splicowanych po kontrolowaniu wielkości egzonów (np. 5,4% dla egzonów konstytutywnych i 16,6% dla egzonów alternatywnie splicowanych między 101 A 150 nt; Fig. 1). Podobne wyniki przyniosły analizy egzonów mysich z alternatywnie splecionymi egzonami w porównaniu mysz-człowiek (dane nie zostały przedstawione).
nasz wynik wskazuje, że znacznie wyższa frakcja alternatywnie splecionych egzonów w ludzkim genomie nie może przejść testu stosunku Ka/Ks. Nie przekłada się to jednak od razu na zwiększoną fałszywie ujemną stopę testu stosunku Ka/Ks w eksonach z alternatywnie splatanych, ponieważ możliwe są inne interpretacje. Czy te dane rzeczywiście sugerują, że znaczna liczba alternatywnie splicowanych egzonów obserwowanych w ludzkich sekwencjach EST nie reprezentuje rzeczywistych egzonów, ale rzeczywiście pochodzi z artefaktów w danych EST (np. rzadkie błędy spliceosomalne) (Modrek and Lee, 2002; Sorek and Safer, 2003)? Wyjaśnienie to wydaje się szczególnie prawdopodobne dla eksonów o mniejszej formie (które są obserwowane w niewielkim ułamku sekwencji EST). Aby przetestować tę możliwość, przeanalizowaliśmy podzbiór alternatywnie splecionych eksonów, które były wspierane przez sekwencje mRNA o Pełnej długości. Zaobserwowaliśmy podobne frakcje egzonów alternatywnie splicowanych, które nie przeszły testu stosunku Ka / Ks (Tabela 2). Dlatego fałszywe egzony pochodzące z artefaktów EST nie mogą wyjaśnić naszych danych. Czy alternatywnie splicowane egzony, które nie spełniają testu stosunku Ka / Ks, w dużej mierze reprezentują niefunkcjonalne formy splicingu? Aby odpowiedzieć na to pytanie, ograniczyliśmy naszą analizę do zestawu 120 eksonów, które były alternatywnie łączone zarówno w transkryptomach ludzkich, jak i mysich. Taki wzór „ancestral alternative splicing” został powszechnie przyjęty jako kryterium funkcjonalnych alternatywnych zdarzeń splicingu (Resch et al., 2004; Sorek et al., 2004a). W tych eksonach nawet wyższe 49,2% (w porównaniu z 22,3% wszystkich alternatywnie splecionych egzonów) nie mogło przejść testu stosunku Ka/Ks (Tabela 1), zgodnie z innym niedawnym badaniem dotyczącym takich eksonów (Ohler et al., 2005). Dlatego hipoteza dla niefunkcjonalnych form splicingu nie może również wyjaśnić naszych danych. Wreszcie, aby wykluczyć potencjalny wpływ Wysp CpG, obliczyliśmy częstotliwość CpG nad GpC w każdym eksonie i ograniczyliśmy naszą analizę do podzbioru alternatywnie splicowanych eksonów, których stosunek CPG / GpC wynosił <0,8 (Iida and Akashi, 2000). Z tych eksonów 20,8% nie mogło przejść tego testu, podobnie jak odsetek dla całego zestawu alternatywnie połączonych eksonów(Tabela 1). Chociaż w zasadzie zwiększony stosunek Ka / Ks może odzwierciedlać różne podstawowe mechanizmy, które nie są przedmiotem niniejszego manuskryptu, nasze analizy kontrolne wskazują, że duża część funkcjonalnych alternatywnych eksonów w ludzkim genomie nie spełnia testu stosunku Ka / Ks.
Egzony konstytutywne przewyższają w większości genów kodujących białka egzony alternatywnie splecione. Ponieważ w wielu organizmach pokrycie sekwencji transkrypcji (np. ESTs) jest nadal dość niskie, test stosunku Ka / Ks jest potężnym narzędziem do udoskonalania obliczeniowych prognoz struktury genów. Jednak większość genów kodujących białka ssaków jest alternatywnie splicowanych, a niewielka liczba alternatywnie splicowanych egzonów może mieć głęboki wpływ funkcjonalny i regulacyjny, jak ostatnio zilustrowano przez alternatywne splicing domeny C2A Piccolo (Garcia et al., 2004) i wiele innych. Nasza analiza sugeruje, że w organizmach z ekstensywnym alternatywnym splicingiem (np. Ssaki) lepiej jest połączyć test stosunku Ka/Ks z innymi wskaźnikami wskazującymi prawdopodobieństwo alternatywnego splicingu. Na szczęście genomika ewolucyjna rzuciła również światło na typowe cechy funkcjonalnych alternatywnie splicowanych eksonów, które zostały z powodzeniem wykorzystane w prognozach (Philipps et al., 2004; Sorek et al., 2004b; Yeo et al., 2005). Takie informacje mogą być zintegrowane z testem stosunku Ka / Ks w celu dokładniejszej oceny potencjału kodującego białka regionów genomowych.
test stosunku Ka / Ks na egzonach konstytutywnych i alternatywnie łączonych o różnych rozmiarach. A) Egzony konstytutywne i B) egzony łączone alternatywnie.
test stosunku Ka / Ks na egzonach konstytutywnych i alternatywnie łączonych o różnych rozmiarach. A) Egzony konstytutywne i B) egzony łączone alternatywnie.
Egzony, które przechodzą lub nie przechodzą testu stosunku Ka/Ks
rodzaje egzonów . | Total # . | średnia długość (bp) . | # Fail . | # Pass . | % Fail . | średnia (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
konstytutywny | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternatywa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forma Durowa) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
rodzaje egzonów . | Total # . | średnia długość (bp) . | # Fail . | # Pass . | % Fail . | średnia (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
konstytutywny | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternatywa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forma Durowa) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (forma Średnia) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (forma minorowa) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Egzony, które przechodzą lub nie przechodzą testu stosunku Ka/Ks
rodzaje egzonów . | Total # . | średnia długość (bp) . | # Fail . | # Pass . | % Fail . | średnia (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
konstytutywny | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternatywa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forma Durowa) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
rodzaje egzonów . | Total # . | średnia długość (bp) . | # Fail . | # Pass . | % Fail . | średnia (mediana) Ka/Ks . |
---|---|---|---|---|---|---|
konstytutywny | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
alternatywa | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forma Durowa) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (forma Średnia) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (forma minorowa) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG / GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
eksony obsługiwane przez ludzkie mRNA, które przechodzą lub nie przechodzą testu stosunku Ka/Ks
rodzaje egzonów . | Total # . | # Fail . | # Pass . | % Fail . |
---|---|---|---|---|
konstytutywny | 10 524 | 1017 | 9507 | 9.7 |
alternatywa | 811 | 158 | 653 | 19.5 |
Alt (forma Durowa) | 618 | 99 | 519 | 16.0 |
Alt (forma Średnia) | 170 | 39 | 131 | 22.9 |
Alt (forma minorowa) | 23 | 20 | 3 | 87.0 |
rodzaje egzonów . | Total # . | # Fail . | # Pass . | % Fail . |
---|---|---|---|---|
Konstytutywny | 10 524 | 1017 | 9507 | 9.7 |
Alternatywa | 811 | 158 | 653 | 19.5 |
Alt (forma Durowa) | 618 | 99 | 519 | 16.0 |
Alt (forma Średnia) | 170 | 39 | 131 | 22.9 |
Alt (forma minorowa) | 23 | 20 | 3 | 87.0 |
eksony obsługiwane przez ludzkie mRNA, które przechodzą lub nie przechodzą testu stosunku Ka/Ks
rodzaje egzonów . | Total # . | # Fail . | # Pass . | % Fail . |
---|---|---|---|---|
konstytutywny | 10 524 | 1017 | 9507 | 9.7 |
alternatywa | 811 | 158 | 653 | 19.5 |
Alt (forma Durowa) | 618 | 99 | 519 | 16.0 |
Alt (forma Średnia) | 170 | 39 | 131 | 22.9 |
Alt (forma minorowa) | 23 | 20 | 3 | 87.0 |
rodzaje egzonów . | Total # . | # Fail . | # Pass . | % Fail . |
---|---|---|---|---|
Konstytutywny | 10 524 | 1017 | 9507 | 9.7 |
Alternatywa | 811 | 158 | 653 | 19.5 |
Alt (forma Durowa) | 618 | 99 | 519 | 16.0 |
Alt (forma Średnia) | 170 | 39 | 131 | 22.9 |
Alt (forma minorowa) | 23 | 20 | 3 | 87.0 |
autorzy dziękują Anton Nekrutenko za przeczytanie naszego manuskryptu i za pomocne komentarze. Praca ta była wspierana przez NIH Grant U54-RR021813, nagrodę dla nauczyciela-uczonego dla C. J. L. Od Fundacji Dreyfusa, dotacja DOE DE-FC02-02ER63421. Y. X. jest wspierany przez Ph. d. dissertation fellowship z UCLA.
konflikt interesów: brak danych.
Boue, S., et al.
alternatywne łączenie i ewolucja.
-1034
Filip, L. C. I Mundy, N. I.
szybka ewolucja poprzez pozytywną selekcję darwinowską w domenie pozakomórkowej obfitego białka limfocytów CD45 u naczelnych.
-1511
Garcia, J., et al.
przełącznik konformacyjny w domenie Piccolo C2A regulowany przez alternatywne splicing.
-53
Hurst, L. D. i Pal, C.
dowody na oczyszczanie selekcji działających na silent sites w BRCA1.
-65
Iida, K. i Akashi, H.
a test of translational selection at 'silent’ sites in the human genome: base composition comparisons in alternatively splicated genes.
-105
Johnson, J. M., et al.
Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.
-2144
Kellis, M., et al.
sekwencjonowanie i porównanie gatunków drożdży w celu identyfikacji genów i elementów regulacyjnych.
-254
Lareau, L. F., et al.
ewoluujące role alternatywnego splicingu.
-282
Lewis, B. P., et al.
dowody na powszechne łączenie alternatywnego splicingu i bezsensownego rozpadu mRNA u ludzi.
-192
Miller, W., et al.
genomika porównawcza.
-56
Modrek B. i Lee C.
genomowy widok alternatywnego splicingu.
-19
Modrek B. i Lee C.
alternatywne łączenie w genomach człowieka, myszy i szczura wiąże się ze zwiększonym tempem tworzenia/utraty eksonu.
-180
Modrek B. i in.
analiza genomu alternatywnego splicingu z wykorzystaniem danych sekwencji wyrażonej przez człowieka.
-2859
Nekrutenko, A.
pogodzenie liczb: ESTs a geny kodujące białka.
-1282
Nekrutenko, A., et al.
the K(A)/K (s) ratio test for assessing the protein-coding potential of Genom regions: an empirical and simulation study.
-202
Nekrutenko, A., et al.
ETOPE: evolutionary test of predicted exons.
-3567
Nekrutenko, A., et al.
ewolucyjne podejście ujawnia wysoką zdolność kodowania białek ludzkiego genomu.
-310
Ohler, U., et al.
Rozpoznawanie nieznanych zachowanych alternatywnie splicowanych egzonów.
Pan, Q., et al.
ujawnienie globalnych cech regulacyjnych alternatywnego splicingu ssaków przy użyciu ilościowej platformy mikromacierzy.
-941
Philipps, D. L., et al.
a computational and experimental approach toward a priori identification of alternatively spliced exons.
-1844
Resch, A., et al.
dowody na subpopulację zachowanych alternatywnych zdarzeń splicingu pod presją selekcji dla zachowania ramki odczytu białka.
-1269
Sorek R. i Ast G.
sekwencje Introniczne flankujące alternatywnie splecione egzony są zachowywane między człowiekiem a myszą.
-1637
Sorek R. i bezpieczniej H. M.
nowatorski algorytm obliczeniowej identyfikacji zanieczyszczonych bibliotek EST.
-1074
Sorek R., et al.
eksony zawierające Alu są alternatywnie łączone.
-1067
Sorek R., et al.
jak powszechne jest funkcjonalne alternatywne splicing w ludzkim genomie?
-71
Sorek R., et al.
a non-est-based method for exon-pomijanie predykcji.
-1623
Thompson, J. D., et al.
CLUSTAL W: Poprawa czułości progresywnego wyrównania wielu sekwencji poprzez ważenie sekwencji, kary luk specyficznych dla pozycji i wybór macierzy wagi.
-4680
Xing, Y. i Lee, C.
ujemna presja selekcyjna przeciw przedwczesnemu obcinaniu białek jest zmniejszona zarówno przez alternatywne splicing, jak i diploidię.
-475
Yang, Z.
PAML: a program package for phylogenetic analysis by maximum likelihood.
-556
Yeo, G. W., et al.
identyfikacja i analiza alternatywnych zdarzeń splicingu zachowanych u ludzi i myszy.
-2855
Zhang, Z. i Gerstein, M.
wielkoskalowa analiza pseudogenów w ludzkim genomie.
–335