- identifikace a charakterizace proteinů kelch-repeat kódovaných v lidském genomu
- chromozomální lokalizace lidských Kelch-repeat proteinů
- doménová Architektura lidských Kelch-opakovaných proteinů
- strukturální vztahy lidských proteinů BTB / kelch
- Kelch-repeat proteiny kódované v genomech Bezobratlých
- Kelch-repeat proteiny kódované v kvasinkových genomech
- omezení BTB / kelchových proteinů na metazoany a poxviry
identifikace a charakterizace proteinů kelch-repeat kódovaných v lidském genomu
k identifikaci proteinů kelch-repeat kódovaných v lidském genomu byly provedeny BLASTOVÉ a PSI-BLASTOVÉ vyhledávání v databázi predikovaných proteinů lidského genomu ven s konsensem Kelch-motif (cdd543, pfam01344, Smart 00612) jako posloupnost dotazů. Toto hledání identifikovalo 57 kelch-opakovaných proteinů a hypotetických proteinů. Všimli jsme si, že několik známých lidských Kelch-opakovaných proteinů nebylo touto metodou identifikováno, pravděpodobně proto, že v každém kelchově motivu je relativně málo konsenzuálních zbytků, žádný z nich není zcela invariantní ve všech příkladech motivu, a také kvůli kolísání délek smyček mezi β-řetězci . Proto byla provedena další vyhledávání s kelchovými opakováními všech 28 známých členů nadrodiny, jak je popsáno v metodách. Tato vyhledávání identifikovala 18 další Kelch-opakované proteiny kódované v lidském genomu. Křížové odkazování všech 75 záznamů proti GenBank identifikovalo 9 záznamů jako částečné sekvence a / nebo duplicitní záznamy pro stejný protein nebo hypotetický ORF a dva záznamy jako proteiny obsahující kelch. Také jsme porovnali výsledky vyhledávání s položkami domény pro kelch v databázích Pfam a SMART domain. Mnoho záznamů bylo uvedeno v SMART i Pfam, nicméně řada proteinů, které jsme identifikovali, nebyla uvedena v těchto databázích (uvedeno v tabulce 1), i když když jsme tyto polypeptidy prohledali proti SMART nebo Pfam, kelchovy motivy byly jasně identifikovány. Dále, počty kelchových opakovaných proteinů přiřazených h. sapiens v druhovém stromu nebo Taxbreakových vazbách Pfam a SMART byly nadměrně odhadnuty kvůli zahrnutí neúplných ORF a více záznamů pro stejný polypeptid. Provedli jsme také další vyhledávání GenBank s jedinými kelchovými motivy z 28 známé Kelch-opakované proteiny, které byly výrazně delší než konsensus CDD kelch-motiv, za účelem rozsáhlejšího hledání proteinů obsahujících více divergentních opakování. Z těchto vícenásobných hodnocení a s vyloučením parciálních sekvencí (jak je popsáno v metodách) jsme identifikovali nejméně 71 Kelch-opakovaných proteinů kódovaných v lidském genomu (Tabulka 1).
k určení počtu opakovaných kelchových motivů v každém proteinu nebo hypotetickém proteinu byla provedena vyhledávání BLASTP s každou sekvencí proti databázi konzervovaných domén (CDD) a Pfam spolu s ruční identifikací kelchových motivů. Počet identifikovaných kelchových motivů se pohyboval od dvou do sedmi. Čtyři čepele je minimální číslo, které bylo doloženo z krystalických struktur β-vrtulových domén . Zdálo se tedy nepravděpodobné, že by položky kódující dva nebo tři kelchovy motivy odpovídaly úplným ORF a tyto byly vyloučeny z další analýzy (položky NP-689579, XP_209285, XP_058629). Na tomto základě se předpokládalo, že 12,7 % (9/71) sekvencí bude obsahovat pětlisté β-vrtule, 84,5 % (60/71) šestlisté a 2,8 % (2/71) sedmlisté β-vrtule (Tabulka 1). Pokud je nám známo, byl dříve identifikován pouze jeden sedmičlenný kelchův opakovaný protein, houbová galaktózooxidáza .
v galaktózooxidáze, jediném kelchově opakovaném proteinu, pro který existuje informace o krystalové struktuře, je vrtule cirkulována vytvořením složené sedmé lopatky, přičemž β-jeden až β-tři řetězce jsou opatřeny opakováním nejvíce C-koncové sekvence a β-čtyři řetězce jsou opatřeny sekvenčním amino-terminálem k prvnímu opakování celé sekvence, což je mechanismus označovaný jako „N-terminální β-vláknový uzávěr“, (obr. 1C). Zkoumali jsme lidské Kelch-opakované proteiny predikcí sekundární struktury β-listů a ruční analýzou sekvenčních opakování a zjistili jsme, že pro 77,5 % (55/71) proteinů byla struktura β-vrtule předpovězena jako uzavřená C-terminálním β-řetězcem. Pro pět sekvencí nebylo možné jasně předpovědět (Tabulka 1).
chromozomální lokalizace lidských Kelch-repeat proteinů
kódovací sekvence pro lidské Kelch-repeat proteiny jsou dispergovány v celém genomu a nacházejí se na všech chromozomech kromě chromozomu 21 a chromozomu Y (Tabulka 1). Bylo zaznamenáno několik případů genů ve fyzické blízkosti, například NP_006460 a NP_067646 na 1q31. 3 a NP_569713 a NP_060114 na 3q27.3 (Tabulka 1). Ve většině případů však neodpovídaly nejvíce příbuzným proteinovým sekvencím, jak by se dalo očekávat u nedávno duplikovaných genů. Jednou z výjimek byly NP_055130 a NP-751943, které se nacházely na 14q21. 3 a které spolu nejvíce souvisely (46% identita). Celkově neexistují žádné důkazy o fyzickém seskupení sekvencí kódujících kelch-protein v lidském genomu. Naproti tomu geny kódující četné proteiny F-box / kelch a. thaliana jsou seskupeny tak, že některé z nejvíce příbuzných sekvencí jsou kódovány z fyzicky blízkých genomických míst .
doménová Architektura lidských Kelch-opakovaných proteinů
dvacet osm Kelch-opakovaných proteinů z různých organismů bylo dříve seskupeno do 5 strukturních kategorií podle umístění kelchových opakování v polypeptidové sekvenci a přítomnosti dalších konzervovaných strukturních domén . Pro vyhodnocení složitosti doménových architektur v rámci jednoho organismu, každá lidská kelch-opakovaná proteinová sekvence byla znovu analyzována hledáním proti CDD, SMART a Pfam a poté byla seskupena podle doménové architektury.
nápadně 72 % (51/71) lidských Kelch-opakovaných proteinů obsahovalo doménu BTB / POZ. Ve všech proteinech kromě jednoho byla doména BTB amino-terminální k doméně kelch (Tabulka 1). Tento hypotetický protein, LZTR-1, obsahoval dvě tandemové domény BTB. Čtyři (5,6%) kelch-repeat proteiny obsahovaly jednu další konzervovanou doménu. Muskelin byl jediným kelch-opakovaným proteinem identifikovaným v lidském genomu, který obsahoval diskoidinovou doménu (CDD 7753, Pfam 00231, SMART 00231, také známý jako doména F5/F8 typu C) (Prag, Collett a Adams, v přípravě). Diskoidinová doména působí jako doména interakce protein-protein v řadě extracelulárních a intracelulárních proteinů a v koagulačních faktorech V A VIII zprostředkovává vazbu fosfolipidů . Další kelch-protein, XP_048774, obsahoval doménu F-box (CDD9197, Pfam 00646). F-box je doména asi čtyřiceti zbytků, poprvé identifikovaných v cyklinu A, který interaguje se Skp1 za účelem ukotvení proteinů do sestavy ubikvitin-ligázy pro ubikvitinaci a cílení na degradaci zprostředkovanou proteosomy . Kombinace domén F-box a kelch-repeat byla dříve popsána v A. thaliana, kde je v genomu kódováno nejméně 67 proteinů F-box/kelch a hypotetických proteinů . Některé z nich fungují v regulaci cirkadiánních hodin závislé na světle, ale funkce mnoha dalších je nejasná . Pokud je nám známo, jedná se o první rozpoznání proteinu F-box/kelch v živočišném genomu. Jeden předpokládaný kelch-opakovaný protein, NP_055608, obsahoval doménu leucinkarboxylmethyltansferázy (LCM) (CDD9631, Pfam 04072) s 34% identitou k LCM doméně proteinové fosfatázy 2 leucinkarboxylmethyltransferázy . Gen aktivující rekombinaci-2 (RAG-2) obsahuje doménu prstů rostlinné homeodomény (PHD) (Pfam00628 )na karboxy-konci.
šest kelch-opakovaných proteinů (11 %) byly velmi velké multidomainové proteiny (Tabulka 1). Attractin / mahagon (což jsou varianty spojů z jednoho genu; 27-29) a MEGF8 jsou dlouhé více než 1000 aminokyselin a obsahují doménu CUB, kelch repetice, lektinovou doménu typu C a domény podobné EGF. Různé funkce byly přisuzovány atraktinu a mahagonu, které zahrnují roli v interakcích T-buněk (attractin, vylučovaná varianta spoje) a regulaci obezity u myší (mahagon, transmembránová varianta spoje). Faktor hostitelských buněk-1 a -2 (HCF-1 a HCF-2) jsou také velké proteiny, které obsahují amino-terminální kelch-opakování, dvě domény fibronektinu typu III a v případě HCF-1 řadu jedinečných HCF opakování. Tyto proteiny fungují jako transkripční koaktivátory viru herpes simplex okamžitá časná genová exprese .
identifikovali jsme tři hypotetické Kelch-repeat proteiny jako obsahující nesouvisející jedinečné sekvence, které neodpovídaly rozpoznaným strukturálním doménám, umístěné buď amino-nebo karboxy-terminální na kelchovy opakování (Tabulka 1).
Rab9 efektor p40 a šest dalších Kelch-opakujících se proteinů byly krátké polypeptidy, z délky 350-442 aminokyselin, které sestávaly téměř výhradně z kelchových opakování (Tabulka 1). Pět z těchto proteinů nebo hypotetických proteinů, včetně p40, obsahovalo šest sekvenčních opakování, a proto se předpokládá, že vytvoří šestiúhelníkové β-vrtule. Dva hypotetické proteiny, NP_060673 a XP_114323, sestávaly z domnělých sedmi lopatek β-vrtule. Společně tyto strukturální rozdíly tvoří základ pro novou kategorizaci lidských kelch-opakovaných proteinů, která je zde uvedena (tabulka 1).
strukturální vztahy lidských proteinů BTB / kelch
neočekávaně velký počet proteinů BTB / kelch kódovaných v lidském genomu nás přiměl k podrobnějšímu studiu této skupiny s cílem identifikovat strukturální podskupiny, které mohou také představovat funkční podskupiny. The 38 sekvence plné délky, které obsahovaly jednotlivé domény BTB a předpovídané šestiúhelníkové β-vrtule, byly zarovnány podle podobnosti sekvencí v CLUSTALW a považovány za stromy spojující sousedství. Zarovnání sekvencí po celé délce odhalilo tři podskupiny přibližně stejné velikosti, které jsme nazvali podskupiny 1 až 3 (obr. 2A). Když byla stejná analýza provedena pouze s kelchovými doménami, stejné seskupení bylo zřejmé pro podskupinu 1 a podstatnou část podskupiny 2, nazývanou podskupina 2A (obr. 2B). Při zarovnání pouze domén BTB byly pro většinu sekvencí zachovány podskupiny 1 a 2 (obr. 2C). Nekořeněné stromy vytvořené samostatnou metodou pro zarovnání založenou na maximální parsimoniální analýze sekvencí, PROTPARS, nepodporovaly podskupinu 3, ale důsledně demonstrovaly vztah sekvencí v podskupinách 1 A 2A (údaje nejsou zobrazeny). Zaměřili jsme se na tyto robustně příbuzné kelch-opakované sekvence v podskupinách 1 a 2A, pro bližší analýzu domén kelch-opakování.
CLUSTALW vícenásobné sekvenční zarovnání domén kelch-repeat z každé z podskupin 1 A 2A prokázalo charakteristické rysy z hlediska opakované organizace. V obou podskupinách (obr. 3 a obr. 4), intrablade smyčka mezi β-prameny 2 a 3 (2-3 smyčka, obr. 5A) a smyčka interblade 4-1 byly hlavními zdroji variací v opakováních s ohledem na jejich délku a primární strukturu. V kontextu neporušené domény β-vrtule vyčnívají 1-2 a 3-4 smyčky nad jednu plochu β-listů a 2-3 smyčky vyčnívají z protilehlé plochy (obr. 5A). Smyčka 4-1 leží buď na stejné ploše jako smyčka 2-3, nebo může být umístěna blíže k jádru β-listu vrtule (obr. 5). V podskupině 1 byly nejdelší 2-3 smyčky nalezeny v opakováních 1, 5 a 6, s kratšími smyčkami v čepelích 2, 3 a 4. Nejdelší smyčka 4-1 byla mezi opakováními 5 a 6 (obr. 3). V kontextu β-vrtule to naznačuje, že strana vrtule tvořená opakováními 5, 6 a 1 může být zvláště zapojena do proteinových interakcí (viz obr. 1C). V podskupině 2A byly nejdelší 2-3 smyčky v opakováních 1 a 2, opakování 4 a 5 mělo mezilehlé 2-3 smyčky a opakování 3 a 6 obsahovalo nejkratší 2-3 smyčky. Nejdelší smyčky 4-1 byly smyčky mezi opakováními 1 a 2 a opakováními 3 a 4 (obr. 4). To naznačuje, že existuje odlišná organizace vazebných míst v podskupině 2A β-vrtule, s možná dvěma vazebnými plochami tvořenými opakováními 1 a 2 a opakováními 4 a 5. Na úrovni jednotlivých sekvencí existovaly také specifické příklady odchylek od standardní organizace opakování, které by mohly mít funkční význam pro jednotlivé proteiny. Například NP_695002 v podskupině 2A má neobvykle dlouhou a vysoce nabitou 3-4 smyčku v opakování 1 a XP_ 040383 má dlouhou 3-4 smyčku v opakování 4 (obr. 4).
také jsme zjistili, že konsensuální sekvence pro záhyb byly charakteristické mezi oběma podskupinami. 50% identitní konsensuální sekvence z každé podskupiny byla srovnána s kelchovou-opakovací jednotkou, aby se odvodily střední 50% identitní konsenzuální sekvence pro podskupinu 1 a podskupinu 2A. tyto motivy byly mapovány proti známé struktuře čepele galaktosoxidázy (obr. 5). Konsensuální motivy zahrnovaly jak aminokyseliny důležité pro záhyb (umístěné uvnitř β-řetězců), tak určité aminokyseliny uvnitř smyček, u nichž by se předpokládalo, že přispívají k vazebným interakcím. Za zmínku stojí, že průměrná délka motivu byla v podskupině 1 kratší než v podskupině 2A. Předpokládá se, že konsensus podskupiny 2A bude obsahovat delší smyčku 2-3. Konsensuální motivy byly odlišné v umístění vysoce konzervovaných nabitých zbytků v oblastech smyčky (obr. 5). Zachování těchto nabitých reziduí bylo nejvýraznější v podskupině 1, kde byly tyto pozice v motivu zachovány na 70 % prahovou hodnotu identity (údaje nejsou zobrazeny). Tyto rozdíly v charakteristikách smyčky také naznačují různé modality interakcí protein-protein pro β-vrtule podskupin 1 A 2A. S ohledem na dříve charakterizované vlastnosti vázající proteiny jsme pozorovali, že proteiny BTB/kelch, které se vážou na aktin, byly rozděleny mezi podskupiny 1 a 3; Tato funkce tedy nemá jednoduchý vztah k primární struktuře (obr. 2A).
Kelch-repeat proteiny kódované v genomech Bezobratlých
chtěli jsme porovnat evoluční vývoj Kelch-repeat proteinů mezi lidmi a moderními bezobratlými, a tak zopakovali analýzu Kelch-repeat proteinů a jejich strukturních podskupin kódovaných v genomech d. melanogaster, a. gambiae A C. elegans . Identifikovali jsme 18 Kelch-opakovaných proteinů kódovaných v genomech Drosophila a Anopheles (Tabulka 2). Sedmnáct z nich bylo ortologů zachovaných mezi těmito dvěma druhy (průměrná identita mezi ortologickými geny D. melanogaster a a. gambiae je 56 %) a jeden byl pro každý druh jedinečný. Homolog Aktinfilinu byl tedy identifikován v A. gambiae, ale ne v D. melanogaster a genom d. melanogaster obsahoval homolog NP_116164, který nebyl přítomen v a. gambiae (Tabulka 2). Pouze tři Kelch-opakované proteiny byly dříve charakterizovány v D. melanogaster, jmenovitě Kelch, Muskelin a Drosophila hostitelský buněčný faktor . Další dva, diablo a scruin-like at the midline (SLIM-1), byly rozpoznány jako kelch-repeat proteiny .
ve skupině 19 proteinů a hypotetických proteinů obsahovalo 95% šest kelch-opakování. Pouze jeden protein s pěti kelchovými opakováními byl identifikován buď u d. melanogaster nebo A. gambiae, což odpovídalo ortologovi lidského F-boxu/kelchova proteinu, XP_048774 (Tabulka 2). 56 % kelch-opakovaných proteinů d. melanogaster a a. gambiae byly proteiny BTB/kelch. Jak D. melanogaster, tak a. gambiae obsahovaly jeden diskoidin / kelch protein ortologní s muskelinem, jeden F-box / kelch protein, tři Kelch a multidomain proteiny, jeden kelch a jedinečný protein a dva proteiny pouze pro vrtule. Všech 19 identifikovaných Kelch-opakovaných proteinů tedy mělo homology v lidském genomu a architektura domén BTB/kelch byla nejrozšířenější (Tabulka 2).
identifikovali jsme 16 Kelch-opakovaných proteinů kódovaných v genomu C. elegans (Tabulka 3). Z těchto proteinů byly funkčně charakterizovány pouze kel-1, spe-26 a CeHCF. Kel-1 je intracelulární protein, který se podílí na regulaci chování při krmení během vývoje larev . Spe-26 přispívá k buněčné organizaci spermatocytů a mutace jsou spojeny se sterilitou . CeHCF se může podílet na regulaci buněčné proliferace . 43.7 % (7/16) proteinů mělo doménovou architekturu BTB/kelch, dva byly homology HCF a atraktinu s podobnými multidoménovými architekturami, dva obsahovaly jedinečné sekvence mimo kelchovy opakování a dva byly proteiny pouze pro vrtule, u obou se předpokládalo, že vytvoří šestiramenné β-vrtule. Byl identifikován jediný protein F-box/kelch, ale nebyl nalezen žádný protein podobný muskelinu (Tabulka 3), . Namísto, byly identifikovány dva hypotetické proteiny s charakteristickými doménovými architekturami : NP_506605, který také obsahoval cyklinovou karboxy-terminální doménu (CDD 7965, Pfam 02984, SMART 00385)a NP_506602, která obsahovala kruhovou doménu (CDD 8941, Pfam 00097, SMART 00184). Cyklinová karboxy-terminální doména tvoří α-spirálový záhyb, který může tvořit místo Interakce s proteiny . Prstencová doména je záhyb zinku a prstu, který zprostředkovává interakce protein-protein .
Kelch-repeat proteiny kódované v kvasinkových genomech
několik Kelch-repeat proteinů bylo studováno funkčně v pučících a štěpných kvasinkách, ale žádný z nich neodpovídá BTB/kelchovým proteinům . Zkoumali jsme, zda prevalence doménové architektury BTB/kelch, kterou jsme identifikovali u mnohobuněčných zvířat rozšířených na kvasinky, analýzou komplementu kelch-opakujících se proteinů kódovaných v genomech s .pombe a s. cerevisiae. Zjistili jsme, že každý genom kódoval malý počet Kelch-opakovaných proteinů (pět v s. pombe, osm v S. cerevisiae), z nichž žádný neodpovídal proteinu BTB/kelch (Tabulka 4). Proteiny a hypotetické proteiny sestávající z amino-terminální kelchovy β-vrtule a rozšířené oblasti stočené cívky a proteinu odpovídajícího domnělé leucinkarboxylmethyltransferáze byly společné pro S. pombe a s. cerevisiae. Ostatní kódované Kelch-opakované proteiny byly nehomologní (Tabulka 4). Protein 1 podobný muskelinu a Ral-2p byly identifikovány u s. pombe, ale ne u s. cerevisiae . Dva proteiny s vzdáleně příbuznými kelchovými opakováními, Gpb1 / Krh1 a Gpb2 / Krh2, byly u s .cerevisiae funkčně charakterizovány jako proteiny vázající receptor vázající G protein. Homologní proteiny nebyly identifikovány v S. pombe v kontextu naší studie. Architektura domén BTB / kelch tedy nebyla v těchto kvasinkách identifikována.
omezení BTB / kelchových proteinů na metazoany a poxviry
vzhledem k tomu, že doménová Architektura BTB/kelch byla převládající u zvířat, ale nebyla identifikována v kvasinkách, Zajímalo nás, zda by některé jiné organismy mohly obsahovat Kelch-opakované proteiny s touto doménovou architekturou. Řada proteinů BTB / kelch byla hlášena jako hypotetické otevřené čtecí rámce (ORFs) v rodině poxvirových zvířecích virů . Databáze Conserved Domain Architecture Retrieval Tool (CDART) v NCBI uvádí 333 záznamů pro proteiny BTB / kelch, které pocházejí z obratlovců, hmyzu, C. elegans nebo poxvirusů. Doména BTB byla dosud identifikována pouze u eukaryot (druhový strom Pfam 00651). Kromě revize druhů stromů SMART a Pfam pro kategorizaci doménové architektury BTB/kelch jsme provedli vlastní vyhledávání BLASTP a TBLASTX V A. databáze genomu thaliana s CDD kelch motif consensus (tento vyhledávací nástroj identifikoval 44 proteinů BTB / kelch z lidského genomu a je tedy velmi účinný při odhalování těchto proteinů) a identifikoval 72 proteinových sekvencí, z nichž většina byly proteiny F-box/kelch, z nichž některé byly serin-threonin fosfatáza/kelch proteiny, a žádný z nich nebyl proteiny BTB/kelch. Hledání s doménami BTB několika lidských nebo bezobratlých kelch-opakovaných proteinů také neidentifikovalo proteiny BTB / kelch V A. thaliana. BLASTOVÉ genomy prohledávají databáze úplných nebo částečně sekvenovaných eukaryotických živočišných a rostlinných genomů v NCBI (Entrez / genome_tree), které zahrnovaly plně sekvenované genomy Apicomplexium Plasmodium falciparum, Microsporidium Encefalitozoon cuniculi, rostlina Oryza sativa (rýže;) a houba Neurospora crassa identifikovala mnoho předpokládaných proteinů obsahujících kelch-opakování, ale žádné ORF, které měly doménovou architekturu BTB/kelch. Výsledky vybraných doménových architektur v pěti eukaryotických organismech jsou uvedeny na obr. 6. U druhů Apikomplexie jsme však zaznamenali dva proteiny s architekturou domény k Tetra /kelch (NP_705330 a EAA22466). Doména k tetra (Pfam 02214) je vzdálený strukturní příbuzný domény BTB / POZ . Celkově tyto výsledky poskytují významnou indikaci, že sekvence kódující proteiny pro doménovou architekturu BTB/kelch se během vývoje mnohobuněčných zvířat rozšířily ve srovnání s Apikomplexií, houbami, rostlinami a jinými eukaryoty.