ヒトゲノムにコードされているkelch-repeatタンパク質の同定と特性評価
ヒトゲノムにコードされているkelch-repeatタンパク質を同定するために、BLASTおよびPSI-BLAST検索が行われる。ヒトゲノム予測タンパク質データベースは、クエリ配列としてkelchモチーフコンセンサス(cdd543、pfam01344、Smart00612)を用いて実施した。 この検索では、57kelch-repeatタンパク質と仮説的なタンパク質が同定された。 我々は、既知のヒトkelchリピートタンパク質のいくつかは、おそらく各kelchモチーフに比較的少数のコンセンサス残基があり、モチーフのすべての例にわたって完全に不変ではないため、また、β鎖間のループの長さの変化のために、この方法によって同定されなかったことに留意した。 したがって、さらなる検索は、方法に記載されているように、すべての28の既知のスーパーファミリーメンバーのkelch繰り返しで行われました。 これらの検索は、ヒトゲノムにコードされる18の追加のケルチリピートタンパク質を同定した。 GenBankに対するすべての75のエントリを相互参照することは、同じタンパク質または仮想的なORFの部分的な配列および/または重複したエントリとして また、検索結果をPfamおよびスマートドメインデータベースのkelchのドメインエントリに相互参照しました。 多くのエントリがSMARTとPfamの両方に記載されていましたが、我々はSMARTまたはPfamに対してこれらのポリペプチドを検索したときに、ケルチモチーフが明確に同定されたにもかかわらず、我々が同定したタンパク質の数は、これらのデータベース(表1に示されている)に記載されていませんでした。 さらに,pfamとSMARTの種樹または分類リンクにおけるh.sapiensに割り当てられたkelchリピート蛋白質の数は,不完全なOrfsと同じポリペプチドに対する複数のエントリの包含のために過剰に推定された。 我々はまた、CDDケルチモチーフコンセンサスよりも明らかに長かった28既知のケルチリピートタンパク質から単一のケルチモチーフを持つGenBankの追加の検索を行 これらの複数の評価から、部分配列を除外して(方法に記載されているように)、ヒトゲノムにコードされる少なくとも71個のkelchリピートタンパク質を同定した(表1)。
各タンパク質または仮想タンパク質中の繰り返しkelchモチーフの数を決定するために、BLASTP検索は、kelchモチーフの手動同定と一緒に保存されたドメインデータベース(CDD)とPfamに対して各配列で行われた。 同定されたケルチモチーフの数は二から七まで変化した。 四つのブレードはβプロペラ分域の結晶構造から文書化された最小数である。 したがって、2つまたは3つのkelchモチーフを符号化したエントリが完全なOrfに対応する可能性は低く、これらはさらなる分析から除外された(エントリNP-689579、XP_209285、XP_058629)。 これに基づいて、配列の12.7%(9/71)が五ブレードのβプロペラを含むと予測され、84.5%(60/71)が六ブレードであり、2.8%(2/71)が七ブレードのβプロペラを含むと予測された(表1)。 我々の知る限りでは、唯一の七刃ケルチリピートタンパク質、真菌ガラクトースオキシダーゼを同定されています。
結晶構造情報が存在する単一のケルチリピートタンパク質であるガラクトースオキシダーゼでは、プロペラが複合第七ブレードの形成によって環状化され、最もC末端の配列リピートからβ-一からβ-三鎖が提供され、第一の完全な配列リピートからβ-四鎖が提供される。 1C)。 我々は、βシートの二次構造予測とシーケンスリピートの手動分析によってヒトkelchリピートタンパク質を調べ、タンパク質の77.5%(55/71)のためにβプロペラ構造がC末端β鎖によって閉鎖されると予測されたことを見出した。 5つのシーケンスについては、明確な予測はできませんでした(表1)。
ヒトkelchリピートタンパク質の染色体局在
ヒトkelchリピートタンパク質のコード配列はゲノム全体に分散し、21番染色体とY染色体を除くすべての染色体に位置している(表1)。 物理的に近接している遺伝子のいくつかの例、例えば、1q31.3でNP_006460およびNP_067646、および3q27.3でNP_569713およびNP_060114が注目された(表1)。 しかし、ほとんどの場合、これらは最近複製された遺伝子について予想されるように、最も密接に関連するタンパク質配列に対応していなかった。 一つの例外は、NP_055130とNP-751943であり、14q21.3に位置し、互いに最も密接に関連していた(46%の同一性)。 全体的に、ヒトゲノム内のkelchタンパク質コード配列の物理的なグループ化のための証拠はなかった。 対照的に、A.thalianaの多数のF-box/kelchタンパク質をコードする遺伝子は、最も高度に関連する配列のいくつかは、物理的に近いゲノムの場所からコードされている
ヒトKelchリピートタンパク質のドメインアーキテクチャ
様々な生物からのTwenty-eight kelchリピートタンパク質は、以前にポリペプチド配列内のkelchリピートの位置と他の保存された構造ドメインの存在に応じて5つの構造カテゴリにグループ化された。 単一の生物内のドメインアーキテクチャの複雑さを評価するために、各ヒトkelchリピートタンパク質配列は、CDD、SMARTおよびPfamに対して検索することによって再
驚くべきことに、ヒトkelchリピートタンパク質の72%(51/71)はBTB/POZドメインを含んでいました。 1つのタンパク質を除く全てにおいて、BTBドメインは、kelchドメインのアミノ末端であった(表1)。 この仮説的なタンパク質、LZTR-1は、二つのタンデムBTBドメインを含んでいた。 四つ(5.6%)ケルチリピートタンパク質は、単一の追加の保存されたドメインが含まれていた。 Muskelinは、ディスコイジンドメイン(CDD7 7 5 3、Pfam0 0 2 3 1、SMART0 0 2 3 1、f5/F8型Cドメインとしても知られる)を含むことがヒトゲノム中で同定された唯一のkelch反復タンパク質であった(pr A G、Collett、adams、準備中)。 ディスコイジンドメインは、細胞外および細胞内タンパク質の数のタンパク質-タンパク質相互作用ドメインとして作用し、凝固因子VおよびVIIIでは、リン脂質結合を仲介する。 別のkelchタンパク質、XP_0 4 8 7 7 4は、F−boxドメイン(CDD9 1 9 7、Pfam0 0 6 4 6)を含んでいた。 Fボックスは、ユビキチン化のためのユビキチンリガーゼアセンブリにタンパク質をアンカーするためにSkp1と相互作用し、プロテオソームを介した分解 F-boxとkelch-repeatドメインの組み合わせは、以前にA.thalianaに記載されており、少なくとも67のF-box/kelchタンパク質と仮説的なタンパク質がゲノムにコードされている。 これらの機能のいくつかは、概日時計の光依存的な調節において機能するが、他の多くの機能は不明瞭である。 我々の知る限りでは、これは動物ゲノムにおけるF-box/kelchタンパク質の最初の認識である。 一つの予測kelchリピートタンパク質、NP_055608は、ロイシンカルボキシルメチルトランスフェラーゼ(LCM)ドメイン(CDD9631、Pfam04072)タンパク質ホスファターゼ2ロイシンカルボキシルメチルトランスフェラーゼのlcmドメインに34%の同一性を持つ含まれていた。 組換え活性化遺伝子-2(RAG-2)は、カルボキシ末端に植物ホメオドメイン(PHD)フィンガードメイン(Pfam00628)が含まれています。
6つのケルチリピートタンパク質(11%)は非常に大きく、マルチドメインタンパク質であった(表1)。 アトラクチン/マホガニー(単一遺伝子からのスプライス変異体である;27-29)とMEGF8は、それぞれ1000以上のアミノ酸の長さであり、カブドメイン、ケルチリピート、C型レクチンドメインとEGF様ドメインを含んでいた。 多様な機能は、t細胞相互作用(アトラクチン、分泌スプライス変異体)とマウス(マホガニー、膜貫通スプライス変異体)における肥満調節における役割を含むアトラクチンとマホガニーに起因している。 宿主細胞因子-1および-2(HCF-1およびHCF-2)は、アミノ末端ケルチリピート、二つのフィブロネクチンIII型ドメインおよびHCF-1の場合、一連のユニークなHCFリピ これらの蛋白質は単純ヘルペスウイルスの即時の早い遺伝子発現のtranscriptional coactivatorsとして作用します。
我々は、kelchリピートにアミノまたはカルボキシ末端のいずれかに位置し、認識された構造ドメインに対応していない無関係なユニークな配列を含むように
Rab9エフェクター p40および他の六つのkelchリピートタンパク質は、長さが350-442アミノ酸からの短いポリペプチドであり、ほぼ完全にkelchリピートから成っていた(表1)。 これらのタンパク質またはp40を含む仮説的なタンパク質の五つは、六つの配列リピートを含み、したがって六つのブレードのβプロペラを形成す 二つの仮説的なタンパク質、NP_060673とXP_114323は、推定セブンブレードのβプロペラで構成されていました。 一緒に、これらの構造的な区別は、ここに提示されているヒトkelch-リピートタンパク質の新規分類の基礎を形成する(表1)。
ヒトBTB/kelchタンパク質の構造的関係
ヒトゲノムにコードされているBTB/kelchタンパク質の予期せぬ数が多いことから、このグループをより詳細に研究し、機能的なサブセットを表す可能性のある構造サブグループを同定することを目的とした。 単一のBTBドメインを含み、六つのブレードのβプロペラを予測した38の全長のシーケンスは、CLUSTALWの配列類似性に従って整列し、近傍結合ツリーと見られた。 全長配列の整列は、ほぼ等しいサイズの三つのサブグループを明らかにし、これをサブグループ1から3と呼んだ(図。 2A)。 Kelchドメインのみで同じ分析を行った場合、サブグループ1とサブグループ2のかなりの割合(サブグループ2Aと呼ばれる)で同じグループ化が明らかにな 2B)。 BTBドメインのみの整列において、サブグループ1および2は、大部分の配列について維持された(図1B)。 2C)。 配列、PROTPARSの最大節約分析に基づいて整列のための別の方法によって生成されたルート化されていない木は、サブグループ3をサポートしていないが、一貫してサブグループ1と2Aの配列の関係を実証した(データは示されていない)。 我々は、kelchリピートドメインの詳細な分析のために、サブグループ1と2Aのこれらの堅牢に関連するkelchリピート配列に焦点を当てました。
サブグループ1と2AのそれぞれからkelchリピートドメインのCLUSTALW多重配列アライメントは、繰り返し組織の面で独特の特徴を示した。 両方のサブグループで(図。 図3および図3を参照してください。 図4)に示すように、β鎖2と3の間のブレードループ内(2-3ループ、図。 5A)とインターブレード4-1ループは、その長さと一次構造に関して繰り返し内の変化の主要な源であった。 無傷のβプロペラドメインの文脈では、1-2および3-4ループはβシートの一方の面の上に突出し、2-3ループは反対の面から突出する(図。 5A)。 4-1ループは、2-3ループと同じ面にあるか、またはプロペラのβシートコアにより密接に配置されている可能性があります(図。 5). サブグループ1では、最長の2-3ループが繰り返し1、5、6で見つかり、ブレード2、3、4で短いループが見つかりました。 最長の4-1ループは、繰り返し5と6の間のループでした(図。 3). Βプロペラの文脈では、これは、繰り返し5、6および1によって形成されるプロペラの側面が特にタンパク質相互作用に関与していることを示唆している(図参照)。 1C)。 サブグループ2Aでは、最長の2-3ループは繰り返し1と2のものであり、繰り返し4と5は中間の2-3ループを有し、繰り返し3と6は最短の2-3ループを含 最長の4-1ループは、繰り返し1と2の間、および繰り返し3と4の間のループでした(図。 4). このことは、サブグループ2A βプロペラには異なる結合部位の組織があり、おそらく1と2を繰り返し、4と5を繰り返すことによって形成される二つの結合面があることを示唆している。 個々の配列のレベルでは、個々のタンパク質にとって機能的に重要であり得る標準的な繰り返し組織からの変異の特定の例もあった。 例えば、サブグループ2AのNP_695002は、繰り返し1で異常に長く、高度に荷電した3-4ループを有し、XP_040383は繰り返し4で長い3-4ループを有する(図。 4).
また,フォールドのコンセンサス配列は二つのサブグループ間で特徴的であることを見いだした。 各サブグループからの50%同一性コンセンサス配列は、サブグループ1とサブグループ2Aの平均50%同一性コンセンサス配列を導出するためにkelch-repeat単位に対して再配置されました.これらのモチーフは、ガラクトースオキシダーゼの既知のブレード構造に対してマッピングされました(Fig. 5). コンセンサスモチーフには、結合相互作用に寄与すると予測される折り目(β鎖内に位置する)とループ内の特定のアミノ酸の両方が含まれていた。 注目すべきことに、モチーフの平均長さは、サブグループ1ではサブグループ2Aよりも短かった。 サブグループ2Aコンセンサスは、より長い2-3ループを含むと予測されます。 コンセンサスモチーフは、ループ領域内の高度に保存された荷電残基の位置において明確であった(図。 5). これらの荷電残基の保存は、これらの位置がモチーフで70%同一性閾値レベルまで保存されたサブグループ1で最も顕著であった(データは示されていない)。 ループ特性のこれらの区別はまた、サブグループ1と2Aのβプロペラのためのタンパク質-タンパク質相互作用の異なるモダリティを示唆している。 以前に特徴づけられたタンパク質結合特性に関しては、アクチンに結合するBTB/kelchタンパク質がサブグループ1と3の間で分割されていることが観察された。 2A)。
無脊椎動物ゲノムにコードされているKelch-repeatタンパク質
我々は、ヒトと現代の無脊椎動物の間でkelch-repeatタンパク質の進化的発展を比較し、D.melanogaster、A.gambiae、C.のゲノムにコードされているkelch-repeatタンパク質とその構造サブグループの解析を繰り返した。 エレガン 我々は、ショウジョウバエとAnophelesゲノム(表2)にコードされた18kelchリピートタンパク質を同定した。 これらのうち十七は、二つの種の間で保存されたオルソログ(D.melanogasterとA.gambiaeのオルソログ遺伝子間の平均同一性は56%である)であり、一つは、それぞれの種に固有 したがって、Actinfilin相同体はA.gambiaeでは同定されたが、D.melanogasterでは同定されず、D.melanogasterゲノムはA.gambiaeには存在しなかったNP_116164の相同体を含んでいた(表2)。 Dでは三つのケルチリピート蛋白質のみが以前に特徴づけられた。 melanogaster、即ちKelch、Muskelinおよびショウジョウバエの宿主細胞の要因。 正中線のdiabloとscruin様(SLIM-1)の2つの他のものは、kelchリピートタンパク質として認識されている。
19のタンパク質と仮説的なタンパク質のグループ内では、95%が六つのケルチ繰り返しを含んでいた。 ヒトF−box/kelchタンパク質XP_0 4 8 7 7 4のオルソログに対応する、D.melanogasterまたはA.gambiaeのいずれかで、5つのkelch反復を有する1つのタンパク質のみが同定された(表2)。 D.melanogasterとA.gambiaeのkelchリピートタンパク質の56%はBTB/kelchタンパク質であった。 D.melanogasterとA.gambiaeは,ムスケリンと同系のディスコイジン/kelch蛋白質,f-box/kelch蛋白質,三つのkelchとマルチドメイン蛋白質,一つのkelchとユニーク蛋白質,二つのプロペラのみ蛋白質を含んでいた。 したがって、同定された19個のkelchリピートタンパク質のすべてがヒトゲノムに同族体を有し、BTB/kelchドメインアーキテクチャが最も一般的であった(表2)。
我々は、c.elegansゲノム内にコードされている16個のkelchリピートタンパク質を同定した(表3)。 これらのタンパク質のうち、kel-1、spe-26およびCeHCFのみが機能的に特徴づけられている。 Kel-1は、幼虫の発育中の摂食行動の調節に関与する細胞内タンパク質である。 Spe-26は精母細胞の細胞組織に寄与し、突然変異は無菌性と関連している。 Cehcfは細胞増殖の調節に関与している可能性がある。 43.タンパク質の7%(7/16)はBTB/kelchドメインアーキテクチャを持っていた、二つは同様のマルチドメインアーキテクチャを持つHCFとアトラクチンの同族体であり、二つはkelchリピートの外にユニークな配列を含み、二つはプロペラのみのタンパク質であり、どちらも六つのブレードのβプロペラを形成すると予測された。 単一のF−box/kelchタンパク質が同定されたが、muskelin様タンパク質は見出されなかった(表3)。 代わりに、独特のドメインアーキテクチャを持つ二つの仮説的なタンパク質が同定された : また、サイクリンカルボキシ末端ドメインを含むNP_506605(CDD7965、Pfam02984、SMART00385)およびリングドメインを含むNP_506602(CDD8941、Pfam00097、SMART00184)。 サイクリンのカルボキシ末端ドメインは、タンパク質相互作用部位を構成する可能性のあるα-ヘリカル倍を形成する。 環ドメインは、タンパク質-タンパク質相互作用を仲介する亜鉛-指の折り目である。
酵母ゲノムにコードされているKelchリピートタンパク質
いくつかのkelchリピートタンパク質は出芽酵母および分裂酵母において機能的に研究されているが、これらのどれもBTB/kelchタンパク質に対応していない。 我々は、S.pombeとS.cerevisiaeゲノムにコードされているkelchリピートタンパク質の補体を分析することにより、酵母に拡張された多細胞動物で同定したBTB/kelchドメインアーキテクチャの 各ゲノムは少数のケルチリピート蛋白質をコードしていることが分かった(S.pombeでは五つ、S.pombeでは八つ)。 cerevisiae)、いずれもBTB/kelchタンパク質に対応しなかった(表4)。 アミノ末端kelch βプロペラと拡張コイルドコイル領域からなる蛋白質と仮説的蛋白質と推定ロイシンカルボキシルメチルトランスフェラーゼに対応する蛋白質はS.pombeとs.cerevisiaeに共通していた。 他のコードされたkelch−repeatタンパク質は非相同であった(表4)。 ムスケリン様1タンパク質とRal-2pは、S.pombeではなく、S.cerevisiaeで同定された。 遠縁kelchリピート、Gpb1/Krh1とGpb2/Krh2と二つのタンパク質は、S.cerevisiaeにおけるGタンパク質共役受容体結合タンパク質として機能的に特徴付けられている。 相同タンパク質は、我々の研究の文脈でS.pombeで同定されていませんでした。 したがって、BTB/kelchドメインアーキテクチャは、これらの酵母では同定されなかった。
BTB/kelchタンパク質の後生動物およびポックスウイルスへの制限
BTB/kelchドメインアーキテクチャは動物で流行しているように見えたが、酵母では同定されていなかったため、他の生物がこのドメインアーキテクチャを持つkelchリピートタンパク質を含む可能性があるかどうかを検討することに興味があった。 BTB/kelchタンパク質の数は、動物ウイルスのポックスウィルスファミリーの仮説的なオープンリーディングフレーム(Orf)として報告されています。 NCBIの保存されたドメインアーキテクチャ検索ツール(CDART)データベースは、脊椎動物、昆虫、c.elegansまたはポックスウイルスに由来するすべてのBTB/kelchタンパク質の333のエ 現在までに、BTBドメインは真核生物(Pfam0 0 6 5 1種樹)でのみ同定されている。 BTB/kelchドメインアーキテクチャの分類のためのSMARTおよびPfam種の木を見直すことに加えて、我々はAの独自のBLASTPおよびTBLASTX検索を実施した。 CDD kelchモチーフコンセンサスを持つthalianaゲノムデータベース(この検索ツールは、ヒトゲノムから44個のBTB/kelchタンパク質を同定し、これらのタンパク質を明らかにするのに非常に有効である)と72個のタンパク質配列を同定し、その大部分はF-box/kelchタンパク質であり、そのうちのいくつかはセリン-スレオニンホスファターゼ/kelchタンパク質であり、BTB/kelchタンパク質ではなかった。 いくつかのヒトまたは無脊椎動物kelchリピート蛋白質のBTBドメインを持つ検索もA.thalianaにおけるBTB/kelch蛋白質を識別しませんでした。 BLASTゲノムNCBI(Entrez/genome_tree,)では、Apicomplexium Plasmodium falciparum、Microsporidium Encephalitozoon cuniculi、植物Oryza sativa(rice;)、真菌Neurospora crassaの完全配列ゲノムを含む真核生物の動物および植物ゲノムのデータベースを検索したが、BTB/kelchドメインアーキテクチャを持つOrfは同定されなかった。 真核生物における選択されたドメインアーキテクチャの結果を図に示した。 6. 我々は、しかし、アピコンプレックス種では、Kテトラ/ケルチドメインアーキテクチャ(NP_705330とEAA22466)を持つ二つのタンパク質に注意しました。 Kテトラドメイン(Pfam02214)は、BTB/POZドメインの遠い構造相対である。 全体的に、これらの結果は、Btb/kelchドメインアーキテクチャのためのタンパク質コード配列は、アピコンプレックス、真菌、植物および他の真核生物と比較して、多細胞動物の進化の間に拡張されていることを有意な指標を提供しています。