要約
要約:最近、ゲノム領域のタンパク質コード電位を非同義から同義の発散率に基づいて評価するka/Ks比テストが提案され、真核生物のゲノム注釈にうまく使用されている。 我々は体系的に我々はこの原稿で説明し、ヒトゲノム内の925転写産物確認代替スプライシングエクソン、上のKa/Ks比テストを行った。 我々は、進化的に保存された代わりにスプライスエクソンの22.3%が構成エクソンの9.8%と比較して、Ka/Ks比テストに合格できないことがわかった。 偽陰性率は、転写産物の包含の頻度が低いエクソンのための最高(85.7%)であった。 フルレングスmRNA配列によってサポートされている代替スプライスエクソンの分析は、同様の結果をもたらし、先祖の代替スプライシングイベントに関 我々の分析は、広範なRNA代替スプライシングと高等真核生物におけるKa/Ks比テストと比較ゲノミクスベースの代替スプライシング予測を組み込むた
Contact:[email protected]
1はじめに
比較ゲノミクスは、真核生物のゲノムの注釈のための強力なツールを提供してきた(Kellis et al., 2003). 先駆的な研究では、Nekrutenko et al. (2002)は、予測されたエクソンのタンパク質コード電位を評価するための’Ka/Ks比試験’を提案した。 この試験は、ヒトゲノム中のタンパク質コード領域の大部分が進化の間に強力な浄化選択下にあるという仮定に基づいている。 その結果、それらの同義語発散(K s)の速度は、非同義発散(K A)の速度を大きく上回り、ヒト−マウスオルソロガス配列比較においてk A/Ks比が1未満である。 1 5 3個のタンパク質コード遺伝子からの1 2 4 4個のエクソンのサンプルでは、Ka/Ks比試験は、8%の偽陰性率および<9 7 1 9>5%の偽陽性率を内部エクソンに与え、こ, 2002). その導入以来、Ka/Ks比試験は、ヒトおよび他の哺乳動物ゲノムの注釈を改善するために広くそして首尾よく使用されてきた(Miller e t a l. ら,2 0 0 4;Nekrutenko,2 0 0 4;Nekrutenko e t a l. ら,2 0 0 3b;ZhangおよびGerstein,2 0 0 4)。
ka/Ks比試験に関する新たな質問の一つは、真核生物のゲノム中の代替スプライシングエクソンに関するものである。 発現配列およびマイクロアレイデータの最近の研究は、代替スプライシングが高等真核生物における遺伝子調節の広範な機構であることを示している(Lareau et al. ら,2 0 0 4;ModrekおよびLee,2 0 0 2)。 ヒトコード遺伝子の最大四分の三は、代替スプライシングを受ける(Johnson et al., 2003). 代替スプライシングが進化中の選択圧力の緩和に関連していることを示唆する豊富な証拠がある(Boue et al., 2003). 例えば、代替スプライシングは、エクソンの生成および損失の加速された速度(ModrekおよびLee、2003)、Alu要素からの新しいエクソン起源(Sorek et al. ら、2 0 0 2)、早期終止コドンの耐性(Lewis e t a l. ら、2003;XingおよびLee、2004)など。 Iida and Akashi(2000)は、ヒトおよびショウジョウバエからの110の代替スプライシングされたタンパク質コード遺伝子の配列発散パターンを調べ、これらの遺伝子の代替スプライシングされた領域が構成領域と比較して高いKa/Ks値を有することを見出した。 代替的にスプライシングされたエクソンにおける上昇したK A/Ksの他の例も報告されている(Filip and Mundy,2 0 0 4;Hurst and Pal,2 0 0 1)。 これらの観察は,代わりにスプライシングされたエクソン間のKa/Ks比試験からの発散に関する疑問を提起した。
2方法
我々は、ヒト発現配列をヒトゲノムに整列させることにより、代替スプライスエクソンを同定した(Modrek et al., 2001). 各代替スプライスエクソンの代替スプライシングの程度を定量化するために、我々は代替スプライシングの標準的なメトリックを使用しました—エクソン包含レベル、エクソンを含むEsttの数をこのエクソンを含むかスキップしたEsttの総数で割ったものとして定義されます。 我々は、それらの包含レベルに基づいて、代替スプライシングエクソンを三つのクラスに細分した:メジャーフォーム(>2/3)、ミディアムフォーム(1/3と2/3の間)とマイナーフォーム(<1/3)。
我々は、以前に記載されているように、マウスorthologのゲノム配列において、各ヒトエクソンのorthologousエクソン配列を同定した(Modrek and Lee,2003)。 各ヒト-マウスオルトロガスエクソン配列対について、我々はNekrutenkoらのプロトコルに従ってKa/Ks比試験を行った。 (2003a)。 簡単に説明すると、ヒトおよびマウスからのオルソロガスエクソン配列を翻訳し、次にCLUSTALW Thompson e t a l.、1994年のデフォルト-パラメータでは、 この蛋白質アライメントは、対応するヌクレオチド配列のアライメントをシードするために使用され、アライメントのギャッ 本発明者らは、PAMLパッケージのyn00プログラムからのYang-Nielsen推定値(PAML3.14)(Yang、1997)を使用して、同義および非同義の置換/部位の数を推定した。 変更されたサイトと変更されていないサイトの数を使用して2×2分割表を作成し、Fisherの正確な検定を使用してKa/Ks比が有意に<1であるかどうかを エクソンは、そのKa/KsがP<0.05レベルで有意に<1であった場合、Ka/Ks比テストに合格すると定義しました。
3結果と考察
我々は、ヒト発現配列の解析に基づいて、ヒトとマウスのゲノム間で保存された925のヒト代替スプライスエクソンのリストをまとめた(Modrek et al., 2001). また、コントロールとして10 996人のヒト構成エクソンのリストをまとめました。 これらのエクソンはすべて両端にイントロンが隣接した内部エクソンであった。 これらのエクソンに対してKa/Ks比試験を行った(Nekrutenko e t a l.,2003a)(方法のセクションを参照)。 構成エクソンの9。Ka/Ks比試験に合格できなかったのは8%であり、これは最初の研究で報告されたものと同様の比率(8%)であった(Nekrutenko et al.,2002)(表1). 対照的に、テストされている代わりにスプライスエクソンの22.3%は、ka/Ks比テスト、構成エクソンと比較して2倍以上の増加に合格できませんでした。 異なるエクソン包含レベルを有する代替スプライシングされたエクソン(方法のセクションの定義を参照)は、進化的発散の異なるパターンを示した(Modrek and Lee,2003;Pan et al. 2004年、我々は925の代替スプライスエクソンをエクソン包含レベルに基づいて三つのクラスに分けた(方法のセクションを参照)。 試験に失敗したエクソンの割合は、主要形態のエクソンでは16.0%であり、マイナー形態の代替エクソンでは85.7%に増加した(転写産物に<1/3を含む)。 また、スプライス化されたエクソンは平均的に短いため、そのサイズに基づいてエクソンを細分化しました(図)。 1). 構成的および代替的にスプライシングされたエクソンの両方において、試験に失敗した画分は、元の研究Nekrutenkoらと一致して、短いエクソンのために高かった。, 2002. しかし、画分は、エクソンサイズを制御した後、代替スプライスエクソンで一貫して高かった(例えば、構成エクソンの5.4%と16.6%101と150ntの間の代替スプライス 1). マウス–ヒト比較におけるマウス代替スプライスエクソンの分析は、同様の結果を生成した(データは示されていない)。
我々の結果は、ヒトゲノム中の代わりにスプライシングされたエクソンの有意に高い割合がKa/Ks比試験に合格できないことを示している。 しかし、これは、他の解釈が可能であるため、代わりにスプライスされたエクソンにおけるka/Ks比試験の偽陰性率の増加にすぐには変換されない。 これらのデータは、実際には、ヒトEST配列で観察される代替スプライスエクソンのかなりの数が実際のエクソンを表すのではなく、実際にESTデータ内のアーティファクト(例えば、まれなスプライスソームエラー)に由来することを意味する(Modrek and Lee、2002;Sorek and Safer、2003)。 この説明は、(EST配列のごく一部で観察される)マイナー型エクソンのために特にもっともらしいと思われます。 この可能性をテストするために、我々は完全長mRNA配列によってサポートされていた代替スプライスエクソンのサブセットを分析した。 我々は、Ka/Ks比試験に失敗する代わりにスプライスエクソンの同様の画分を観察した(表2)。 したがって,ESTアーティファクトに由来するスプリアスエクソンは,我々のデータを説明できない。 Ka/Ks比テストに失敗した代替スプライスエクソンは、主に非機能スプライス形態を表していますか? この質問に答えるために、我々は代わりにヒトとマウスのトランスクリプトームの両方でスプライシングされた120エクソンのセットに我々の分析を制限 このような「先祖の代替スプライシング」のパターンは、機能的な代替スプライシングイベントの基準として広く採用されていた(Resch et al. ら、2 0 0 4;Sorek e t a l.、2004a)。 これらのエクソンでは、さらに高い49.2%(すべての代わりにスプライスされたエクソンの22.3%に対して)は、そのようなエクソンに関する別の最近の研究(Ohler et al., 2005). したがって、非機能的スプライス形式の仮説は、我々のデータを説明することもできません。 最後に、CpG島の潜在的な影響を除外するために、我々は、各エクソンにおけるGpC上のCpGの頻度を計算し、CpG/GpC比が<0.8であった代替スプライスエクソンのサブセットに解析を制限した(Iida and Akashi、2000)。 これらのエクソンのうち、20.8%は、代わりにスプライスされたエクソンの合計セットに対する割合と同様に、この試験に合格できませんでした(表1)。 原則的に増加したKa/Ks比は、この原稿の焦点ではない様々な基礎となるメカニズムを反映している可能性がありますが、私たちのコントロール解析は、ヒトゲノムファンクショナル代替エクソンの大部分がKa/Ks比テストに失敗することを示しています。
構成エクソンは、ほとんどのタンパク質コード遺伝子で代替スプライスエクソンを上回っています。 多くの生物では転写シーケンスのカバレッジ(例えば、ESTs)はまだ非常に低いので、Ka/Ks比試験は、計算遺伝子構造予測を精製するための強力なツールです。 しかし、哺乳類のタンパク質コード遺伝子の大部分は、代わりにスプライシングされ、最近PiccoloのC2Aドメインの代替スプライシングによって示されるように、,2004)および他の多くの. 我々の分析は、広範な代替スプライシング(例えば哺乳類)を持つ生物では、代替スプライシングの確率を示す他の指標とKa/Ks比テストを組み合わせることが 幸いなことに、進化的ゲノミクスはまた、予測に成功して使用されている機能的な代替スプライスエクソンの典型的な形質に光を当てている(Philipps et al. ら、2 0 0 4;Sorek e t a l. ら、2 0 0 4b;Yeo e t a l., 2005). そのような情報はゲノム領域の蛋白質コードの潜在性のより正確な査定のためのKa/Ksの比率テストと統合することができます。
異なったサイズの構成的な、代わりに接続されたエクソンのKa/Ksの比率テスト。 (A)構成エクソンおよび(B)代替スプライスエクソン。
異なったサイズの構成的な、代わりに接続されたエクソンのKa/Ksの比率テスト。 (A)構成エクソンおよび(B)代替スプライスエクソン。
Ka/Ks比テストに合格または不合格のエクソン
エクソンの種類。 | 平均長さ(bp)。 | #失敗します。 | #パス。 | %失敗します。 | 平均(中央値)Ka/Ks。 | |
---|---|---|---|---|---|---|
コンスティテュート | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
オルタナティブ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt(メジャー-フォーム) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
エクソンの種類。 | 平均長さ(bp)。 | #失敗します。 | #パス。 | %失敗します。 | 平均(中央値)Ka/Ks。 | |
---|---|---|---|---|---|---|
コンスティテュート | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
オルタナティブ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt(メジャー-フォーム) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt(ミディアムフォーム) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt(マイナー-フォーム) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
先祖代々のアルト | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt(CpG/GpC< 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
Ka/Ks比テストに合格または不合格のエクソン
エクソンの種類。 | 平均長さ(bp)。 | #失敗します。 | #パス。 | %失敗します。 | 平均(中央値)Ka/Ks。 | |
---|---|---|---|---|---|---|
コンスティテュート | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
オルタナティブ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt(メジャー-フォーム) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt (Medium-form) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt (Minor-form) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
Ancestral Alt | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt (CpG/GpC < 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
エクソンの種類。 | 平均長さ(bp)。 | #失敗します。 | #パス。 | %失敗します。 | 平均(中央値)Ka/Ks。 | |
---|---|---|---|---|---|---|
コンスティテュート | 10 996 | 136 | 1077 | 9919 | 9.8 | 0.146 (0.070) |
オルタナティブ | 925 | 122 | 206 | 719 | 22.3 | 0.199 (0.094) |
Alt(メジャー-フォーム) | 630 | 121 | 101 | 529 | 16.0 | 0.162 (0.086) |
Alt(ミディアムフォーム) | 253 | 129 | 69 | 184 | 27.3 | 0.235 (0.113) |
Alt(マイナー-フォーム) | 42 | 81 | 36 | 6 | 85.7 | 0.649 (0.410) |
先祖代々のアルト | 120 | 102 | 59 | 61 | 49.2 | 0.412 (0.182) |
Alt(CpG/GpC< 0.8) | 793 | 124 | 165 | 628 | 20.8 | 0.192 (0.097) |
ka/Ks比試験に合格または不合格のヒトmRNAによって支持されるエクソン
エクソンの種類。 | #失敗します。 | #パス。 | %失敗します。 | |
---|---|---|---|---|
コンスティテュート | 10 524 | 1017 | 9507 | 9.7 |
オルタナティブ | 811 | 158 | 653 | 19.5 |
Alt(メジャー-フォーム) | 618 | 99 | 519 | 16.0 |
Alt(ミディアムフォーム) | 170 | 39 | 131 | 22.9 |
Alt(マイナー-フォーム) | 23 | 20 | 3 | 87.0 |
エクソンの種類。 | #失敗します。 | #パス。 | %失敗します。 | |
---|---|---|---|---|
コンスティテュート | 10 524 | 1017 | 9507 | 9.7 |
オルタナティブ | 811 | 158 | 653 | 19.5 |
Alt(メジャー-フォーム) | 618 | 99 | 519 | 16.0 |
Alt(ミディアムフォーム) | 170 | 39 | 131 | 22.9 |
Alt(マイナー-フォーム) | 23 | 20 | 3 | 87.0 |
ka/Ks比試験に合格または不合格のヒトmRNAによって支持されるエクソン
エクソンの種類。 | #失敗します。 | #パス。 | %失敗します。 | |
---|---|---|---|---|
コンスティテュート | 10 524 | 1017 | 9507 | 9.7 |
オルタナティブ | 811 | 158 | 653 | 19.5 |
Alt(メジャー-フォーム) | 618 | 99 | 519 | 16.0 |
Alt(ミディアムフォーム) | 170 | 39 | 131 | 22.9 |
Alt(マイナー-フォーム) | 23 | 20 | 3 | 87.0 |
エクソンの種類。 | #失敗します。 | #パス。 | %失敗します。 | |
---|---|---|---|---|
コンスティテュート | 10 524 | 1017 | 9507 | 9.7 |
オルタナティブ | 811 | 158 | 653 | 19.5 |
Alt(メジャー-フォーム) | 618 | 99 | 519 | 16.0 |
Alt(ミディアムフォーム) | 170 | 39 | 131 | 22.9 |
Alt(マイナー-フォーム) | 23 | 20 | 3 | 87.0 |
著者は私達の原稿の読書と有用なコメントのためのAnton Nekrutenkoに感謝する。 この研究は、C.J.L.の教師-学者賞であるNIH Grant U54–RR021813によって支援されました。 ドレフュス財団から、DOEグラントDE-FC02-02ER63421。 Y.X.はUCLAからのPh.D.の論文の交わりによって支えられる。
利益相反:宣言されていません。
Boue,S.,et al.
代替スプライシングと進化。
-1034
フィリップ、L.C.およびMundy、N.I.
霊長類における豊富なリンパ球タンパク質CD45の細胞外ドメインにおける陽性ダーウィン選択による急速な進化。
-1511
Garcia,J.,et al.
オルタナティブスプライシングによって調節されるピッコロC2Aドメインの立体配座スイッチ。
-53
Hurst,L.D.およびPal,C.
BRCA1の静かな場所で機能する浄化の選択のための証拠。
-65
飯田,明石,H.
ヒトゲノムにおける”サイレント”部位での翻訳選択のテスト:代替スプライシング遺伝子における塩基組成の比較。
-105
Johnson,J.M.,et al.
エキソンジャンクションマイクロアレイを用いたヒト代替プレmRNAスプライシングのゲノムワイド調査。
-2144
Kellis,M.,et al.
遺伝子および調節要素を同定するための酵母種の配列決定および比較。
-254
Lareau,L.F.,et al.
オルタナティブスプライシングの進化する役割。
-282
Lewis,B.P.,et al.
ヒトにおける代替スプライシングとナンセンス媒介mRNA崩壊の広範なカップリングの証拠。
-192
Miller,W.,et al.
比較ゲノミクス。
-56
Modrek,b.およびLee,C.
オルタナティブスプライシングのゲノムビュー。
-19
Modrek,b.およびLee,C.
ヒト、マウスおよびラットのゲノムにおける代替スプライシングは、エクソンの作成/損失の増加率と関連している。
-180
Modrek,B.,et al.
ヒト発現配列データを用いた代替スプライシングのゲノムワイド解析。
-2859
Nekrutenko,A.
数を調整する:ESTs対蛋白質コード遺伝子。
-1282
Nekrutenko,A.,et al.
ゲノム領域のタンパク質コードの可能性を評価するためのK(A)/K(S)比試験:経験的およびシミュレーション研究。
-202
Nekrutenko,A.,et al.
ETOPE:予測されたエクソンの進化的テスト。
-3567
Nekrutenko,A.,et al.
進化的アプローチは、ヒトゲノムの高タンパク質コーディング能力を明らかにする。
-310
Ohler,U.,et al.
未知の保存された代替スプライスエクソンの認識。
Pan,Q.,et al.
定量的マイクロアレイプラットフォームを使用して哺乳類の代替スプライシングのグローバルな規制の特徴を明らかにする。
-941
Philipps,D.L.,et al.
代替スプライスエクソンの先験的同定に向けた計算と実験的アプローチ。
-1844
Resch,A.,et a l.
タンパク質読み取りフレーム保存のための選択圧力の下で保存された代替スプライシングイベントの亜集団の証拠。
-1269
Sorek,R.およびAst,G.
代わりにスプライスされたエクソンに隣接するイントロニック配列は、ヒトとマウスの間で保存されている。
-1637
Sorek,R.And Safer,H.M.
汚染されたESTライブラリの計算同定のための新しいアルゴリズム。
-1074
Sorek,R.,et a l.
Alu含有エクソンは、代わりにスプライシングされる。
-1067
Sorek,R.,et a l.
ヒトゲノムの機能的代替スプライシングはどのように普及していますか?
-71
Sorek,R.,et a l.
エクソンスキッピング予測のための非ESTベースの方法。
-1623
Thompson,J.D.,et al.
CLUSTAL W:順序の重み付け、位置特定のギャップの罰および重量のマトリックスの選択によって進歩的な多数順序の直線の感受性を改善する。
-4680
Xing,Y.およびLee,C.
時期尚早の蛋白質の切り捨てに対する否定的な選択圧力は代わりとなるスプライシングおよび二倍性両方によって減ります。
-475
ヤン、Z.
PAML:最尤法による系統解析のためのプログラムパッケージ。
-556
Yeo,G.W.,et al.
ヒトとマウスで保存された代替スプライシングイベントの同定と分析。
-2855
Zhang,Z.およびGerstein,M.
ヒトゲノム中の偽遺伝子の大規模解析。
–335