Évaluation de l’application du test de rapport Ka / Ks à des exons alternativement épissés

Résumé

Résumé: Récemment, le test de rapport Ka / Ks, qui évalue les potentiels de codage des protéines des régions génomiques en fonction de leurs taux de divergence non synonymes à synonymes, a été proposé et utilisé avec succès dans les annotations génomiques des eucaryotes. Nous avons systématiquement effectué le test du rapport Ka / Ks sur des exons alternativement épissés confirmés par transcription 925 dans le génome humain, que nous décrivons dans ce manuscrit. Nous avons constaté que 22,3% des exons alternativement épissés conservés au cours de l’évolution ne peuvent pas passer le test du rapport Ka / Ks, contre 9,8% pour les exons constitutifs. Le taux de faux négatifs était le plus élevé (85,7 %) pour les exons avec de basses fréquences d’inclusion de transcription. Les analyses d’exons alternativement épissés supportés par des séquences d’ARNm de pleine longueur ont donné des résultats similaires, et près de la moitié des exons impliqués dans des événements d’épissage alternatifs ancestraux n’ont pas pu passer ce test. Notre analyse suggère une orientation future pour intégrer des prédictions d’épissage alternatives basées sur la génomique comparative avec le test du rapport Ka / Ks chez les eucaryotes supérieurs avec un épissage alternatif étendu de l’ARN.

Contact:[email protected]

1 INTRODUCTION

La génomique comparative a fourni des outils puissants pour l’annotation des génomes eucaryotes (Kellis et al., 2003). Dans une étude pionnière, Nekrutenko et al. (2002) ont proposé le « test du rapport Ka/Ks » pour évaluer les potentiels de codage protéique des exons prédits. Ce test est basé sur l’hypothèse que la majorité des régions codant les protéines du génome humain font l’objet d’une forte sélection purifiante au cours de l’évolution. En conséquence, leurs taux de divergence synonyme (Ks) dépassent largement les taux de divergence non synonyme (Ka), ce qui donne des rapports Ka / Ks bien inférieurs à un dans les comparaisons de séquences orthologues homme-souris. Sur un échantillon de 1244 exons provenant de 153 gènes codant des protéines, le test du rapport Ka/Ks a donné un taux de faux négatifs de 8 % et un taux de faux positifs < 5 % pour les exons internes, une précision qui était meilleure que la plupart des outils de prédiction de gènes (Nekrutenko et al., 2002). Depuis son introduction, le test de rapport Ka / Ks a été largement et avec succès utilisé pour améliorer les annotations des génomes humains et d’autres mammifères (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang et Gerstein, 2004).

Une question émergente sur le test du rapport Ka / Ks concerne les exons alternativement épissés dans les génomes eucaryotes. Des études récentes de séquences exprimées et de données sur les microréseaux ont montré que l’épissage alternatif est un mécanisme répandu de régulation génique chez les eucaryotes supérieurs (Lareau et al., 2004; Modrek et Lee, 2002). Jusqu’à trois quarts des gènes codants humains subissent un épissage alternatif (Johnson et al., 2003). Il existe de nombreuses preuves suggérant que l’épissage alternatif est associé à des relaxations de la pression de sélection au cours de l’évolution (Boue et al., 2003). Par exemple, on observe que l’épissage alternatif est associé à un taux accéléré de création et de perte d’exons (Modrek et Lee, 2003), à de nouvelles origines d’exons à partir d’éléments Alu (Sorek et al., 2002), tolérance des codons de terminaison prématurée (Lewis et al., 2003; Xing et Lee, 2004), et ainsi de suite. Iida et Akashi (2000) ont étudié les modèles de divergence de séquence de 110 gènes codant des protéines alternativement épissés chez l’homme et la Drosophile, et ont constaté que les régions alternativement épissées de ces gènes avaient des valeurs Ka / Ks plus élevées que les régions constitutives. D’autres exemples de Ka/Ks élevés dans des exons alternativement épissés ont également été rapportés (Filip et Mundy, 2004; Hurst et Pal, 2001). Ces observations soulèvent une question concernant la divergence par rapport au test du rapport Ka/Ks entre exons alternativement épissés.

2 MÉTHODES

Nous avons identifié des exons alternativement épissés en alignant des séquences exprimées par l’homme sur le génome humain (Modrek et al., 2001). Pour quantifier le degré d’épissage alternatif pour chaque exon alternativement épissé, nous avons utilisé une métrique standard d’épissage alternatif — le niveau d’inclusion d’exon, défini comme le nombre d’EST qui incluaient un exon divisé par le nombre total d’EST qui incluaient ou ignoraient cet exon. Nous avons subdivisé alternativement les exons épissés en trois classes en fonction de leurs niveaux d’inclusion: forme majeure (> 2/3), forme moyenne (entre 1/3 et 2/3) et forme mineure (< 1/3).

Nous avons identifié la séquence d’exons orthologues pour chaque exon humain dans la séquence génomique de l’orthologue de souris, comme décrit précédemment (Modrek et Lee, 2003). Pour chaque paire de séquences d’exons orthologues humain-souris, nous avons effectué le test du rapport Ka/Ks suivant le protocole de Nekrutenko et al. (2003a). Brièvement, les séquences d’exons orthologues de l’homme et de la souris ont été traduites puis alignées à l’aide de CLUSTALW Thompson et al., 1994 sous paramètres par défaut. Cet alignement protéique a été utilisé pour ensemencer un alignement de séquences nucléotidiques correspondantes, et les lacunes de l’alignement ont été comblées. Nous avons estimé le nombre de substitutions/sites synonymes et non synonymes en utilisant les estimations Yang–Nielsen du programme yn00 du paquet PAML (PAML 3.14) (Yang, 1997). Nous avons construit un tableau de contingence 2 × 2 en utilisant le nombre de sites synonymes / non synonymes modifiés et inchangés, et avons testé si le rapport Ka / Ks était significativement < 1 en utilisant le test exact de Fisher. Nous avons défini un exon comme passant le test du rapport Ka / Ks si son Ka / Ks était significativement < 1 au niveau P < 0,05.

3 RÉSULTATS ET DISCUSSION

Nous avons compilé une liste de 925 exons humains épissés alternativement qui ont été conservés entre des génomes humains et des génomes de souris, sur la base d’analyses de séquences exprimées par l’homme (Modrek et al., 2001). Nous avons également compilé une liste de 10 996 exons constitutifs humains comme contrôle. Tous ces exons étaient des exons internes flanqués d’introns aux deux extrémités. Nous avons effectué les tests de rapport Ka/Ks sur ces exons suivant le protocole de (Nekrutenko et al., 2003a) (voir la section Méthodes). Des exons constitutifs 9.8% n’ont pas réussi le test du rapport Ka/ Ks, un rapport similaire à celui rapporté par l’étude initiale (8%) (Nekrutenko et al., 2002) (tableau 1). En revanche, 22,3% des exons alternativement épissés testés n’ont pas pu passer le test du rapport Ka / Ks, soit une augmentation de plus de 2 fois par rapport aux exons constitutifs. Parce que des exons alternativement épissés avec différents niveaux d’inclusion d’exons (voir les définitions dans la section Méthodes) présentaient différents modèles de divergence évolutive (Modrek et Lee, 2003; Pan et al., 2004, nous avons divisé les 925 exons alternativement épissés en trois classes en fonction de leurs niveaux d’inclusion d’exons (voir la section Méthodes). La fraction des exons ayant échoué au test était de 16,0 % pour les exons de forme majeure, et a augmenté à 85,7 % pour les exons alternatifs de forme mineure (inclus < 1/3 dans les transcriptions). Comme les exons alternativement épissés étaient en moyenne plus courts, nous avons également subdivisé les exons en fonction de leur taille (Fig. 1). Dans les exons constitutifs et alternativement épissés, les fractions échouant au test étaient plus élevées pour les exons plus courts, conformément à l’étude originale Nekrutenko et al., 2002. Cependant, la fraction était constamment plus élevée dans les exons alternativement épissés après contrôle de la taille des exons (par exemple 5,4% pour les exons constitutifs et 16,6% pour les exons alternativement épissés entre 101 et 150 nt; Fig. 1). Des analyses d’exons de souris épissés alternativement dans une comparaison souris-humain ont produit des résultats similaires (données non présentées).

Notre résultat indique qu’une fraction significativement plus élevée d’exons alternativement épissés dans le génome humain ne peut pas passer le test du rapport Ka / Ks. Cependant, cela ne se traduit pas immédiatement par une augmentation du taux de faux négatifs du test du rapport Ka / Ks dans des exons alternativement épissés, car d’autres interprétations sont possibles. Ces données impliquent-elles réellement qu’un nombre considérable d’exons alternativement épissés observés dans les séquences EST humaines ne représentent pas de vrais exons, mais proviennent effectivement d’artefacts dans les données EST (par exemple, de rares erreurs d’épissure) (Modrek et Lee, 2002; Sorek et Safer, 2003)? Cette explication semble particulièrement plausible pour les exons de formes mineures (qui sont observés dans une petite fraction des séquences EST). Pour tester cette possibilité, nous avons analysé un sous-ensemble d’exons alternativement épissés qui étaient supportés par des séquences d’ARNm de pleine longueur. Nous avons observé des fractions similaires d’exons alternativement épissés échouant au test du rapport Ka/Ks (tableau 2). Par conséquent, les exons parasites provenant d’artefacts EST ne peuvent pas expliquer nos données. Les exons épissés qui échouent au test du rapport Ka / Ks représentent-ils en grande partie des formes d’épissure non fonctionnelles? Pour répondre à cette question, nous avons limité notre analyse à un ensemble de 120 exons qui ont été alternativement épissés dans les transcriptomes humains et murins. Un tel modèle d' » épissage alternatif ancestral » a été largement adopté comme critère pour les événements d’épissage alternatif fonctionnel (Resch et al., 2004; Sorek et coll., 2004a). Dans ces exons, un taux encore plus élevé de 49,2 % (contre 22,3 % de tous les exons alternativement épissés) n’a pas pu passer le test du rapport Ka/ Ks (tableau 1), ce qui est cohérent avec une autre étude récente sur de tels exons (Ohler et al., 2005). Par conséquent, l’hypothèse des formes d’épissure non fonctionnelles ne peut pas non plus expliquer nos données. Enfin, pour exclure l’influence potentielle des îles CpG, nous avons calculé la fréquence de CpG sur GpC dans chaque exon et limité notre analyse à un sous-ensemble d’exons alternativement épissés dont les rapports CpG / GpC étaient < 0,8 (Iida et Akashi, 2000). Parmi ces exons, 20,8 % n’ont pas réussi ce test, ce qui est similaire au pourcentage pour l’ensemble total d’exons alternativement épissés (tableau 1). Bien qu’en principe un rapport Ka / Ks accru puisse refléter divers mécanismes sous-jacents, ce qui n’est pas l’objet de ce manuscrit, nos analyses de contrôle indiquent qu’une grande fraction des exons alternatifs fonctionnels du génome humain échouent au test du rapport Ka / Ks.

Les exons constitutifs sont plus nombreux que les exons alternativement épissés dans la plupart des gènes codant pour les protéines. Étant donné que dans de nombreux organismes, la couverture des séquences de transcription (par exemple, les EST) est encore assez faible, le test de rapport Ka / Ks est un outil puissant pour affiner les prédictions de structure génique par calcul. Cependant, la majorité des gènes codant pour les protéines de mammifères sont alternativement épissés, et un petit nombre d’exons alternativement épissés pourraient avoir des impacts fonctionnels et réglementaires profonds, comme l’a récemment illustré l’épissage alternatif du domaine C2A de Piccolo (Garcia et al., 2004) et bien d’autres. Notre analyse suggère que dans les organismes avec un épissage alternatif étendu (par exemple, les mammifères), il est préférable de combiner le test du rapport Ka / Ks avec d’autres mesures qui indiquent la probabilité d’un épissage alternatif. Heureusement, la génomique évolutive a également mis en lumière les traits typiques des exons fonctionnels alternativement épissés, qui ont été utilisés avec succès dans les prédictions (Philipps et al., 2004; Sorek et coll., 2004b; Yeo et coll., 2005). De telles informations peuvent être intégrées au test de rapport Ka/ Ks pour une évaluation plus précise des potentiels de codage protéique des régions génomiques.

Fig. 1

Le test du rapport Ka / Ks sur des exons constitutifs et alternativement épissés de différentes tailles. (A) des exons constitutifs et (B) des exons alternativement épissés.

Fig. 1

Le test du rapport Ka / Ks sur des exons constitutifs et alternativement épissés de différentes tailles. (A) des exons constitutifs et (B) des exons alternativement épissés.

Tableau 1

Exons qui réussissent ou échouent au test du rapport Ka/Ks

Types d’exons. # total. Longueur moyenne (pb). # Échec. # Passe. % d’échec. Moyenne (médiane) Ka/Ks.
Constitutif 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternative 925 122 206 719 22.3 0.199 (0.094)
Alt (forme majeure) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Types d’exons. # total. Longueur moyenne (pb). # Échec. # Passe. % d’échec. Moyenne (médiane) Ka/Ks.
Constitutif 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternative 925 122 206 719 22.3 0.199 (0.094)
Alt (forme majeure) 630 121 101 529 16.0 0.162 (0.086)
Alt (Forme moyenne) 253 129 69 184 27.3 0.235 (0.113)
Alt (forme mineure) 42 81 36 6 85.7 0.649 (0.410)
Alt Ancestral 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/ GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)

Tableau 1

Exons qui réussissent ou échouent au test du rapport Ka/Ks

Types d’exons. # total. Longueur moyenne (pb). # Échec. # Passe. % d’échec. Moyenne (médiane) Ka/Ks.
Constitutif 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternative 925 122 206 719 22.3 0.199 (0.094)
Alt (forme majeure) 630 121 101 529 16.0 0.162 (0.086)
Alt (Medium-form) 253 129 69 184 27.3 0.235 (0.113)
Alt (Minor-form) 42 81 36 6 85.7 0.649 (0.410)
Ancestral Alt 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Types d’exons. # total. Longueur moyenne (pb). # Échec. # Passe. % d’échec. Moyenne (médiane) Ka/Ks.
Constitutif 10 996 136 1077 9919 9.8 0.146 (0.070)
Alternative 925 122 206 719 22.3 0.199 (0.094)
Alt (forme majeure) 630 121 101 529 16.0 0.162 (0.086)
Alt (Forme moyenne) 253 129 69 184 27.3 0.235 (0.113)
Alt (forme mineure) 42 81 36 6 85.7 0.649 (0.410)
Alt Ancestral 120 102 59 61 49.2 0.412 (0.182)
Alt (CpG/ GpC < 0.8) 793 124 165 628 20.8 0.192 (0.097)
Tableau 2

Exons pris en charge par des ARNM humains qui réussissent ou échouent au test du rapport Ka/Ks

Types d’exons. # total. # Échec. # Passe. % d’échec.
Constitutif 10 524 1017 9507 9.7
Alternative 811 158 653 19.5
Alt (forme majeure) 618 99 519 16.0
Alt (Forme moyenne) 170 39 131 22.9
Alt (forme mineure) 23 20 3 87.0
Types d’exons. # total. # Échec. # Passe. % d’échec.
Constitutif 10 524 1017 9507 9.7
Alternative 811 158 653 19.5
Alt (forme majeure) 618 99 519 16.0
Alt (Forme moyenne) 170 39 131 22.9
Alt (forme mineure) 23 20 3 87.0
Tableau 2

Exons pris en charge par des ARNM humains qui réussissent ou échouent au test du rapport Ka/Ks

Types d’exons. # total. # Échec. # Passe. % d’échec.
Constitutif 10 524 1017 9507 9.7
Alternative 811 158 653 19.5
Alt (forme majeure) 618 99 519 16.0
Alt (Forme moyenne) 170 39 131 22.9
Alt (forme mineure) 23 20 3 87.0
Types d’exons. # total. # Échec. # Passe. % d’échec.
Constitutif 10 524 1017 9507 9.7
Alternative 811 158 653 19.5
Alt (forme majeure) 618 99 519 16.0
Alt (Forme moyenne) 170 39 131 22.9
Alt (forme mineure) 23 20 3 87.0

Les auteurs remercient Anton Nekrutenko pour la lecture de notre manuscrit et pour les commentaires utiles. Ce travail a été soutenu par la subvention U54-RR021813 des NIH, un prix d’enseignant-chercheur décerné à C.J.L. de la Fondation Dreyfus, une subvention du DOE DE-FC02-02ER63421. Y.X. est soutenu par une bourse de thèse de doctorat de l’UCLA.

Conflit d’intérêts : aucun n’a été déclaré.

Boue, S., et coll.

2003

Épissage et évolution alternatifs.

Bioessais
25
1031

-1034

Filip, L.C. et Mundy, N.I.

2004

Évolution rapide par sélection darwinienne positive dans le domaine extracellulaire de l’abondante protéine lymphocytaire CD45 chez les primates.

Mol. Biol. Evol.
21
1504

-1511

Garcia, J., et coll.

2004

Un commutateur conformationnel dans le domaine Piccolo C2A régulé par un épissage alternatif.

Nat. Structure. Mol. Biol.
11
45

-53

Hurst, L.D. et Pal, C.

2001

Evidence for purifying selection agissant sur des sites silencieux dans BRCA1.

Tendances Genet.
17
62

-65

Iida, K. et Akashi, H.

2000

A test of translational selection at ‘silent’ sites in the human genome: base composition comparisons in alternately spliced genes.

Gène
261
93

-105

Johnson, J.M., et coll.

2003

Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.

Sciences
302
2141

-2144

Kellis, M., et coll.

2003

Séquençage et comparaison des espèces de levures pour identifier les gènes et les éléments régulateurs.

Nature
423
241

-254

Lareau, L.F., et coll.

2004

L’évolution des rôles de l’épissage alternatif.

Curr. Opin. Structure. Biol.
14
273

-282

Lewis, B.P., et coll.

2003

Evidence for the widespread coupling of alternative splicing and nonsense-mediated mRNA decay in humans.

Proc. Natl Acad. Sci. États-Unis
100
189

-192

Miller, W., et coll.

2004

Génomique comparative.

Annu. Rév. Génomique Bourdonnement. Genet.
5
15

-56

Modrek, B. et Lee, C.

2002

Une vue génomique de l’épissage alternatif.

Nat. Genet.
30
13

-19

Modrek, B. et Lee, C.

2003

L’épissage alternatif dans les génomes de l’homme, de la souris et du rat est associé à un taux accru de création/perte d’exons.

Nat. Genet.
34
177

-180

Modrek, B., et coll.

2001

Analyse à l’échelle du génome de l’épissage alternatif à l’aide de données de séquences exprimées par l’homme.

Acides nucléiques Res.
29
2850

-2859

Nekroutenko, A.

2004

Réconcilier les chiffres : les EST et les gènes codant pour les protéines.

Mol. Biol. Evol.
21
1278

-1282

Nekrutenko, A., et al.

2002

Le test de rapport K(A) / K(S) pour évaluer le potentiel de codage des protéines des régions génomiques: une étude empirique et de simulation.

Génome Rés.
12
198

-202

Nekrutenko, A., et al.

2003

ETOPE : test évolutif des exons prédits.

Acides nucléiques Res.
31
3564

-3567

Nekrutenko, A., et al.

2003

Une approche évolutive révèle une forte capacité de codage des protéines du génome humain.

Tendances Genet.
19
306

-310

Ohler, U., et coll.

2005

Reconnaissance d’exons alternativement épissés conservés inconnus.

PLoS Comp. Biol.
1
e15

Pan, Q., et coll.

2004

Révéler les caractéristiques réglementaires mondiales de l’épissage alternatif des mammifères à l’aide d’une plate-forme de microréseaux quantitatifs.

Mol. Cellule.
16
929

-941

Philipps, D.L., et coll.

2004

Une approche computationnelle et expérimentale vers l’identification a priori d’exons alternativement épissés.

ARN
10
1838

-1844

Resch, A., et coll.

2004

Evidence for a subpopulation of conserved alternative splicing events under selection pressure for protein reading frame preservation.

Acides nucléiques Res.
32
1261

-1269

Sorek, R. et Ast, G.

2003

Des séquences introniques flanquant des exons alternativement épissés sont conservées entre l’homme et la souris.

Génome Rés.
13
1631

-1637

Sorek, R. et Safer, H.M.

2003

Un nouvel algorithme pour l’identification informatique des bibliothèques EST contaminées.

Acides nucléiques Res.
31
1067

-1074

Sorek, R., et coll.

2002

Les exons contenant de l’Alu sont alternativement épissés.

Génome Rés.
12
1060

-1067

Sorek, R., et coll.

2004

Quelle est la prévalence de l’épissage alternatif fonctionnel dans le génome humain?

Tendances Genet
20
68

-71

Sorek, R., et coll.

2004

Une méthode non basée sur l’EST pour la prédiction de saut d’exon.

Génome Rés.
14
1617

-1623

Thompson, J.D., et coll.

1994

CLUSTAL W: amélioration de la sensibilité de l’alignement progressif de séquences multiples grâce à la pondération de séquences, aux pénalités d’écart spécifiques à la position et au choix de la matrice de poids.

Acides nucléiques Res.
22
4673

-4680

Xing, Y. et Lee, C.

2004

La pression de sélection négative contre la troncature prématurée des protéines est réduite à la fois par épissage alternatif et par diploïdie.

Tendances Genet.
20
472

-475

Yang, Z.

1997

PAML: un ensemble de programmes pour l’analyse phylogénétique par maximum de vraisemblance.

Calcul. Appl. Biosci.
13
555

-556

Yeo, G.W., et al.

2005

Identification et analyse d’événements d’épissage alternatifs conservés chez l’homme et la souris.

Proc. Natl Acad. Sci. États-Unis
102
2850

-2855

Zhang, Z. et Gerstein, M.

2004

Analyse à grande échelle des pseudogènes dans le génome humain.

Curr. Opin. Genet. Dev.
14
328

–335

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.