Résumé
Résumé: Récemment, le test de rapport Ka / Ks, qui évalue les potentiels de codage des protéines des régions génomiques en fonction de leurs taux de divergence non synonymes à synonymes, a été proposé et utilisé avec succès dans les annotations génomiques des eucaryotes. Nous avons systématiquement effectué le test du rapport Ka / Ks sur des exons alternativement épissés confirmés par transcription 925 dans le génome humain, que nous décrivons dans ce manuscrit. Nous avons constaté que 22,3% des exons alternativement épissés conservés au cours de l’évolution ne peuvent pas passer le test du rapport Ka / Ks, contre 9,8% pour les exons constitutifs. Le taux de faux négatifs était le plus élevé (85,7 %) pour les exons avec de basses fréquences d’inclusion de transcription. Les analyses d’exons alternativement épissés supportés par des séquences d’ARNm de pleine longueur ont donné des résultats similaires, et près de la moitié des exons impliqués dans des événements d’épissage alternatifs ancestraux n’ont pas pu passer ce test. Notre analyse suggère une orientation future pour intégrer des prédictions d’épissage alternatives basées sur la génomique comparative avec le test du rapport Ka / Ks chez les eucaryotes supérieurs avec un épissage alternatif étendu de l’ARN.
Contact:[email protected]
1 INTRODUCTION
La génomique comparative a fourni des outils puissants pour l’annotation des génomes eucaryotes (Kellis et al., 2003). Dans une étude pionnière, Nekrutenko et al. (2002) ont proposé le « test du rapport Ka/Ks » pour évaluer les potentiels de codage protéique des exons prédits. Ce test est basé sur l’hypothèse que la majorité des régions codant les protéines du génome humain font l’objet d’une forte sélection purifiante au cours de l’évolution. En conséquence, leurs taux de divergence synonyme (Ks) dépassent largement les taux de divergence non synonyme (Ka), ce qui donne des rapports Ka / Ks bien inférieurs à un dans les comparaisons de séquences orthologues homme-souris. Sur un échantillon de 1244 exons provenant de 153 gènes codant des protéines, le test du rapport Ka/Ks a donné un taux de faux négatifs de 8 % et un taux de faux positifs < 5 % pour les exons internes, une précision qui était meilleure que la plupart des outils de prédiction de gènes (Nekrutenko et al., 2002). Depuis son introduction, le test de rapport Ka / Ks a été largement et avec succès utilisé pour améliorer les annotations des génomes humains et d’autres mammifères (Miller et al., 2004; Nekrutenko, 2004; Nekrutenko et al., 2003b; Zhang et Gerstein, 2004).
Une question émergente sur le test du rapport Ka / Ks concerne les exons alternativement épissés dans les génomes eucaryotes. Des études récentes de séquences exprimées et de données sur les microréseaux ont montré que l’épissage alternatif est un mécanisme répandu de régulation génique chez les eucaryotes supérieurs (Lareau et al., 2004; Modrek et Lee, 2002). Jusqu’à trois quarts des gènes codants humains subissent un épissage alternatif (Johnson et al., 2003). Il existe de nombreuses preuves suggérant que l’épissage alternatif est associé à des relaxations de la pression de sélection au cours de l’évolution (Boue et al., 2003). Par exemple, on observe que l’épissage alternatif est associé à un taux accéléré de création et de perte d’exons (Modrek et Lee, 2003), à de nouvelles origines d’exons à partir d’éléments Alu (Sorek et al., 2002), tolérance des codons de terminaison prématurée (Lewis et al., 2003; Xing et Lee, 2004), et ainsi de suite. Iida et Akashi (2000) ont étudié les modèles de divergence de séquence de 110 gènes codant des protéines alternativement épissés chez l’homme et la Drosophile, et ont constaté que les régions alternativement épissées de ces gènes avaient des valeurs Ka / Ks plus élevées que les régions constitutives. D’autres exemples de Ka/Ks élevés dans des exons alternativement épissés ont également été rapportés (Filip et Mundy, 2004; Hurst et Pal, 2001). Ces observations soulèvent une question concernant la divergence par rapport au test du rapport Ka/Ks entre exons alternativement épissés.
2 MÉTHODES
Nous avons identifié des exons alternativement épissés en alignant des séquences exprimées par l’homme sur le génome humain (Modrek et al., 2001). Pour quantifier le degré d’épissage alternatif pour chaque exon alternativement épissé, nous avons utilisé une métrique standard d’épissage alternatif — le niveau d’inclusion d’exon, défini comme le nombre d’EST qui incluaient un exon divisé par le nombre total d’EST qui incluaient ou ignoraient cet exon. Nous avons subdivisé alternativement les exons épissés en trois classes en fonction de leurs niveaux d’inclusion: forme majeure (> 2/3), forme moyenne (entre 1/3 et 2/3) et forme mineure (< 1/3).
Nous avons identifié la séquence d’exons orthologues pour chaque exon humain dans la séquence génomique de l’orthologue de souris, comme décrit précédemment (Modrek et Lee, 2003). Pour chaque paire de séquences d’exons orthologues humain-souris, nous avons effectué le test du rapport Ka/Ks suivant le protocole de Nekrutenko et al. (2003a). Brièvement, les séquences d’exons orthologues de l’homme et de la souris ont été traduites puis alignées à l’aide de CLUSTALW Thompson et al., 1994 sous paramètres par défaut. Cet alignement protéique a été utilisé pour ensemencer un alignement de séquences nucléotidiques correspondantes, et les lacunes de l’alignement ont été comblées. Nous avons estimé le nombre de substitutions/sites synonymes et non synonymes en utilisant les estimations Yang–Nielsen du programme yn00 du paquet PAML (PAML 3.14) (Yang, 1997). Nous avons construit un tableau de contingence 2 × 2 en utilisant le nombre de sites synonymes / non synonymes modifiés et inchangés, et avons testé si le rapport Ka / Ks était significativement < 1 en utilisant le test exact de Fisher. Nous avons défini un exon comme passant le test du rapport Ka / Ks si son Ka / Ks était significativement < 1 au niveau P < 0,05.
3 RÉSULTATS ET DISCUSSION
Nous avons compilé une liste de 925 exons humains épissés alternativement qui ont été conservés entre des génomes humains et des génomes de souris, sur la base d’analyses de séquences exprimées par l’homme (Modrek et al., 2001). Nous avons également compilé une liste de 10 996 exons constitutifs humains comme contrôle. Tous ces exons étaient des exons internes flanqués d’introns aux deux extrémités. Nous avons effectué les tests de rapport Ka/Ks sur ces exons suivant le protocole de (Nekrutenko et al., 2003a) (voir la section Méthodes). Des exons constitutifs 9.8% n’ont pas réussi le test du rapport Ka/ Ks, un rapport similaire à celui rapporté par l’étude initiale (8%) (Nekrutenko et al., 2002) (tableau 1). En revanche, 22,3% des exons alternativement épissés testés n’ont pas pu passer le test du rapport Ka / Ks, soit une augmentation de plus de 2 fois par rapport aux exons constitutifs. Parce que des exons alternativement épissés avec différents niveaux d’inclusion d’exons (voir les définitions dans la section Méthodes) présentaient différents modèles de divergence évolutive (Modrek et Lee, 2003; Pan et al., 2004, nous avons divisé les 925 exons alternativement épissés en trois classes en fonction de leurs niveaux d’inclusion d’exons (voir la section Méthodes). La fraction des exons ayant échoué au test était de 16,0 % pour les exons de forme majeure, et a augmenté à 85,7 % pour les exons alternatifs de forme mineure (inclus < 1/3 dans les transcriptions). Comme les exons alternativement épissés étaient en moyenne plus courts, nous avons également subdivisé les exons en fonction de leur taille (Fig. 1). Dans les exons constitutifs et alternativement épissés, les fractions échouant au test étaient plus élevées pour les exons plus courts, conformément à l’étude originale Nekrutenko et al., 2002. Cependant, la fraction était constamment plus élevée dans les exons alternativement épissés après contrôle de la taille des exons (par exemple 5,4% pour les exons constitutifs et 16,6% pour les exons alternativement épissés entre 101 et 150 nt; Fig. 1). Des analyses d’exons de souris épissés alternativement dans une comparaison souris-humain ont produit des résultats similaires (données non présentées).
Notre résultat indique qu’une fraction significativement plus élevée d’exons alternativement épissés dans le génome humain ne peut pas passer le test du rapport Ka / Ks. Cependant, cela ne se traduit pas immédiatement par une augmentation du taux de faux négatifs du test du rapport Ka / Ks dans des exons alternativement épissés, car d’autres interprétations sont possibles. Ces données impliquent-elles réellement qu’un nombre considérable d’exons alternativement épissés observés dans les séquences EST humaines ne représentent pas de vrais exons, mais proviennent effectivement d’artefacts dans les données EST (par exemple, de rares erreurs d’épissure) (Modrek et Lee, 2002; Sorek et Safer, 2003)? Cette explication semble particulièrement plausible pour les exons de formes mineures (qui sont observés dans une petite fraction des séquences EST). Pour tester cette possibilité, nous avons analysé un sous-ensemble d’exons alternativement épissés qui étaient supportés par des séquences d’ARNm de pleine longueur. Nous avons observé des fractions similaires d’exons alternativement épissés échouant au test du rapport Ka/Ks (tableau 2). Par conséquent, les exons parasites provenant d’artefacts EST ne peuvent pas expliquer nos données. Les exons épissés qui échouent au test du rapport Ka / Ks représentent-ils en grande partie des formes d’épissure non fonctionnelles? Pour répondre à cette question, nous avons limité notre analyse à un ensemble de 120 exons qui ont été alternativement épissés dans les transcriptomes humains et murins. Un tel modèle d' » épissage alternatif ancestral » a été largement adopté comme critère pour les événements d’épissage alternatif fonctionnel (Resch et al., 2004; Sorek et coll., 2004a). Dans ces exons, un taux encore plus élevé de 49,2 % (contre 22,3 % de tous les exons alternativement épissés) n’a pas pu passer le test du rapport Ka/ Ks (tableau 1), ce qui est cohérent avec une autre étude récente sur de tels exons (Ohler et al., 2005). Par conséquent, l’hypothèse des formes d’épissure non fonctionnelles ne peut pas non plus expliquer nos données. Enfin, pour exclure l’influence potentielle des îles CpG, nous avons calculé la fréquence de CpG sur GpC dans chaque exon et limité notre analyse à un sous-ensemble d’exons alternativement épissés dont les rapports CpG / GpC étaient < 0,8 (Iida et Akashi, 2000). Parmi ces exons, 20,8 % n’ont pas réussi ce test, ce qui est similaire au pourcentage pour l’ensemble total d’exons alternativement épissés (tableau 1). Bien qu’en principe un rapport Ka / Ks accru puisse refléter divers mécanismes sous-jacents, ce qui n’est pas l’objet de ce manuscrit, nos analyses de contrôle indiquent qu’une grande fraction des exons alternatifs fonctionnels du génome humain échouent au test du rapport Ka / Ks.
Les exons constitutifs sont plus nombreux que les exons alternativement épissés dans la plupart des gènes codant pour les protéines. Étant donné que dans de nombreux organismes, la couverture des séquences de transcription (par exemple, les EST) est encore assez faible, le test de rapport Ka / Ks est un outil puissant pour affiner les prédictions de structure génique par calcul. Cependant, la majorité des gènes codant pour les protéines de mammifères sont alternativement épissés, et un petit nombre d’exons alternativement épissés pourraient avoir des impacts fonctionnels et réglementaires profonds, comme l’a récemment illustré l’épissage alternatif du domaine C2A de Piccolo (Garcia et al., 2004) et bien d’autres. Notre analyse suggère que dans les organismes avec un épissage alternatif étendu (par exemple, les mammifères), il est préférable de combiner le test du rapport Ka / Ks avec d’autres mesures qui indiquent la probabilité d’un épissage alternatif. Heureusement, la génomique évolutive a également mis en lumière les traits typiques des exons fonctionnels alternativement épissés, qui ont été utilisés avec succès dans les prédictions (Philipps et al., 2004; Sorek et coll., 2004b; Yeo et coll., 2005). De telles informations peuvent être intégrées au test de rapport Ka/ Ks pour une évaluation plus précise des potentiels de codage protéique des régions génomiques.
Le test du rapport Ka / Ks sur des exons constitutifs et alternativement épissés de différentes tailles. (A) des exons constitutifs et (B) des exons alternativement épissés.
Le test du rapport Ka / Ks sur des exons constitutifs et alternativement épissés de différentes tailles. (A) des exons constitutifs et (B) des exons alternativement épissés.
Exons qui réussissent ou échouent au test du rapport Ka/Ks
Types d’exons. | # total. | Longueur moyenne (pb). | # Échec. | # Passe. | % d’échec. | Moyenne (médiane) Ka/Ks. |
---|---|---|---|---|---|---|
Constitutif | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternative | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forme majeure) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Types d’exons. | # total. | Longueur moyenne (pb). | # Échec. | # Passe. | % d’échec. | Moyenne (médiane) Ka/Ks. |
---|---|---|---|---|---|---|
Constitutif | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternative | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forme majeure) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Forme moyenne) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (forme mineure) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Alt Ancestral | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/ GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exons qui réussissent ou échouent au test du rapport Ka/Ks
Types d’exons. | # total. | Longueur moyenne (pb). | # Échec. | # Passe. | % d’échec. | Moyenne (médiane) Ka/Ks. |
---|---|---|---|---|---|---|
Constitutif | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternative | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forme majeure) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Types d’exons. | # total. | Longueur moyenne (pb). | # Échec. | # Passe. | % d’échec. | Moyenne (médiane) Ka/Ks. |
---|---|---|---|---|---|---|
Constitutif | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
Alternative | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt (forme majeure) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Forme moyenne) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (forme mineure) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Alt Ancestral | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/ GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Exons pris en charge par des ARNM humains qui réussissent ou échouent au test du rapport Ka/Ks
Types d’exons. | # total. | # Échec. | # Passe. | % d’échec. |
---|---|---|---|---|
Constitutif | 10 524 | 1017 | 9507 | 9.7 |
Alternative | 811 | 158 | 653 | 19.5 |
Alt (forme majeure) | 618 | 99 | 519 | 16.0 |
Alt (Forme moyenne) | 170 | 39 | 131 | 22.9 |
Alt (forme mineure) | 23 | 20 | 3 | 87.0 |
Types d’exons. | # total. | # Échec. | # Passe. | % d’échec. |
---|---|---|---|---|
Constitutif | 10 524 | 1017 | 9507 | 9.7 |
Alternative | 811 | 158 | 653 | 19.5 |
Alt (forme majeure) | 618 | 99 | 519 | 16.0 |
Alt (Forme moyenne) | 170 | 39 | 131 | 22.9 |
Alt (forme mineure) | 23 | 20 | 3 | 87.0 |
Exons pris en charge par des ARNM humains qui réussissent ou échouent au test du rapport Ka/Ks
Types d’exons. | # total. | # Échec. | # Passe. | % d’échec. |
---|---|---|---|---|
Constitutif | 10 524 | 1017 | 9507 | 9.7 |
Alternative | 811 | 158 | 653 | 19.5 |
Alt (forme majeure) | 618 | 99 | 519 | 16.0 |
Alt (Forme moyenne) | 170 | 39 | 131 | 22.9 |
Alt (forme mineure) | 23 | 20 | 3 | 87.0 |
Types d’exons. | # total. | # Échec. | # Passe. | % d’échec. |
---|---|---|---|---|
Constitutif | 10 524 | 1017 | 9507 | 9.7 |
Alternative | 811 | 158 | 653 | 19.5 |
Alt (forme majeure) | 618 | 99 | 519 | 16.0 |
Alt (Forme moyenne) | 170 | 39 | 131 | 22.9 |
Alt (forme mineure) | 23 | 20 | 3 | 87.0 |
Les auteurs remercient Anton Nekrutenko pour la lecture de notre manuscrit et pour les commentaires utiles. Ce travail a été soutenu par la subvention U54-RR021813 des NIH, un prix d’enseignant-chercheur décerné à C.J.L. de la Fondation Dreyfus, une subvention du DOE DE-FC02-02ER63421. Y.X. est soutenu par une bourse de thèse de doctorat de l’UCLA.
Conflit d’intérêts : aucun n’a été déclaré.
Boue, S., et coll.
Épissage et évolution alternatifs.
-1034
Filip, L.C. et Mundy, N.I.
Évolution rapide par sélection darwinienne positive dans le domaine extracellulaire de l’abondante protéine lymphocytaire CD45 chez les primates.
-1511
Garcia, J., et coll.
Un commutateur conformationnel dans le domaine Piccolo C2A régulé par un épissage alternatif.
-53
Hurst, L.D. et Pal, C.
Evidence for purifying selection agissant sur des sites silencieux dans BRCA1.
-65
Iida, K. et Akashi, H.
A test of translational selection at ‘silent’ sites in the human genome: base composition comparisons in alternately spliced genes.
-105
Johnson, J.M., et coll.
Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.
-2144
Kellis, M., et coll.
Séquençage et comparaison des espèces de levures pour identifier les gènes et les éléments régulateurs.
-254
Lareau, L.F., et coll.
L’évolution des rôles de l’épissage alternatif.
-282
Lewis, B.P., et coll.
Evidence for the widespread coupling of alternative splicing and nonsense-mediated mRNA decay in humans.
-192
Miller, W., et coll.
Génomique comparative.
-56
Modrek, B. et Lee, C.
Une vue génomique de l’épissage alternatif.
-19
Modrek, B. et Lee, C.
L’épissage alternatif dans les génomes de l’homme, de la souris et du rat est associé à un taux accru de création/perte d’exons.
-180
Modrek, B., et coll.
Analyse à l’échelle du génome de l’épissage alternatif à l’aide de données de séquences exprimées par l’homme.
-2859
Nekroutenko, A.
Réconcilier les chiffres : les EST et les gènes codant pour les protéines.
-1282
Nekrutenko, A., et al.
Le test de rapport K(A) / K(S) pour évaluer le potentiel de codage des protéines des régions génomiques: une étude empirique et de simulation.
-202
Nekrutenko, A., et al.
ETOPE : test évolutif des exons prédits.
-3567
Nekrutenko, A., et al.
Une approche évolutive révèle une forte capacité de codage des protéines du génome humain.
-310
Ohler, U., et coll.
Reconnaissance d’exons alternativement épissés conservés inconnus.
Pan, Q., et coll.
Révéler les caractéristiques réglementaires mondiales de l’épissage alternatif des mammifères à l’aide d’une plate-forme de microréseaux quantitatifs.
-941
Philipps, D.L., et coll.
Une approche computationnelle et expérimentale vers l’identification a priori d’exons alternativement épissés.
-1844
Resch, A., et coll.
Evidence for a subpopulation of conserved alternative splicing events under selection pressure for protein reading frame preservation.
-1269
Sorek, R. et Ast, G.
Des séquences introniques flanquant des exons alternativement épissés sont conservées entre l’homme et la souris.
-1637
Sorek, R. et Safer, H.M.
Un nouvel algorithme pour l’identification informatique des bibliothèques EST contaminées.
-1074
Sorek, R., et coll.
Les exons contenant de l’Alu sont alternativement épissés.
-1067
Sorek, R., et coll.
Quelle est la prévalence de l’épissage alternatif fonctionnel dans le génome humain?
-71
Sorek, R., et coll.
Une méthode non basée sur l’EST pour la prédiction de saut d’exon.
-1623
Thompson, J.D., et coll.
CLUSTAL W: amélioration de la sensibilité de l’alignement progressif de séquences multiples grâce à la pondération de séquences, aux pénalités d’écart spécifiques à la position et au choix de la matrice de poids.
-4680
Xing, Y. et Lee, C.
La pression de sélection négative contre la troncature prématurée des protéines est réduite à la fois par épissage alternatif et par diploïdie.
-475
Yang, Z.
PAML: un ensemble de programmes pour l’analyse phylogénétique par maximum de vraisemblance.
-556
Yeo, G.W., et al.
Identification et analyse d’événements d’épissage alternatifs conservés chez l’homme et la souris.
-2855
Zhang, Z. et Gerstein, M.
Analyse à grande échelle des pseudogènes dans le génome humain.
–335