- identificarea și caracterizarea proteinelor kelch-repeat codificate în genomul uman
- localizarea cromozomială a proteinelor repetate Kelch umane
- arhitectura domeniului proteinelor umane repetate Kelch
- relații structurale ale proteinelor BTB/kelch umane
- proteine repetate Kelch codificate în genomul nevertebratelor
- proteinele repetate Kelch codificate în genomii de drojdie
- restricția proteinelor BTB / kelch la animale metazoane și poxvirusuri
identificarea și caracterizarea proteinelor kelch-repeat codificate în genomul uman
pentru a identifica proteinele kelch-repeat codificate în genomul uman, căutările BLAST și PSI-BLAST ale proteinelor Kelch-repeat baza de date a proteinelor prezise de genomul uman a fost realizată cu consensul Kelch-motif (cdd543, pfam01344, Smart 00612) ca secvență de interogare. Această căutare a identificat 57 de proteine repetate kelch și proteine ipotetice. Am observat că mai multe dintre proteinele umane cunoscute de repetare a kelch-ului nu au fost identificate prin această metodă, probabil pentru că există relativ puține reziduuri de consens în fiecare motiv kelch, dintre care niciunul nu este complet invariant în toate exemplele motivului și, de asemenea, din cauza variației lungimilor buclelor dintre catenele de la XV . Prin urmare, s-au făcut căutări suplimentare cu repetările kelch ale tuturor celor 28 de membri de superfamilie cunoscuți, așa cum este descris în metode. Aceste căutări au identificat 18 proteine suplimentare repetate kelch codificate în genomul uman. Corelarea încrucișată a tuturor celor 75 de intrări cu GenBank a identificat 9 dintre intrări ca secvențe parțiale și/sau intrări duplicate pentru aceeași proteină sau ORF ipotetic și două dintre intrări ca proteine care nu conțin kelch. De asemenea, am comparat rezultatele căutării cu intrările de domeniu pentru kelch în bazele de date Pfam și SMART domain. Multe intrări au fost enumerate atât în SMART, cât și în Pfam, cu toate acestea, o serie de proteine pe care le-am identificat nu au fost enumerate în aceste baze de date (indicate în tabelul 1), chiar dacă atunci când am căutat aceste polipeptide împotriva SMART sau Pfam, motivele kelch au fost clar identificate. Mai mult, numărul de proteine repetate kelch atribuite lui H. sapiens în arborele speciilor sau legăturile de Taxbreak ale Pfam și SMART au fost supraevaluate din cauza includerii ORFs incomplete și a intrărilor multiple pentru aceeași polipeptidă. De asemenea, am efectuat căutări suplimentare ale GenBank cu motive kelch unice din cele 28 de proteine cunoscute kelch-repeat care au fost distinct mai lungi decât consensul CDD kelch-motif, pentru a căuta mai mult proteine care conțin repetări mai divergente. Din aceste evaluări multiple și cu excluderea secvențelor parțiale (așa cum sunt descrise în metode), am identificat cel puțin 71 de proteine repetate kelch codificate în genomul uman (Tabelul 1).
pentru a determina numărul de motive kelch repetate în fiecare proteină sau proteină ipotetică, s-au făcut căutări BLASTP cu fiecare secvență împotriva bazei de date de domeniu conservate (CDD) și Pfam, împreună cu identificarea manuală a motivelor kelch. Numărul de motive kelch identificate a variat de la două la șapte. Patru lame este numărul minumum care a fost documentat din structurile cristaline ale domeniilor cu elice de la XV . Astfel, părea puțin probabil ca intrările care codifică două sau trei motive kelch să corespundă ORF-urilor complete și acestea să fie excluse din analiza ulterioară (intrările NP-689579, XP_209285, XP_058629). Pe această bază, s-a prezis că 12,7 % (9/71) din secvențe vor conține elice cu cinci pale de la clasa a VIII-a, 84,5 % (60/71) vor fi cu șase pale și 2,8 % (2/71) vor conține elice cu șapte pale de la clasa a VIII-a (Tabelul 1). Din câte știm, doar o proteină repetată kelch cu șapte lame a fost identificată anterior, galactoză oxidază fungică .
în galactoză oxidază, proteina cu o singură kelch-repetare pentru care există informații despre structura cristalină, elicea este circularizată prin formarea unei a șaptea lame compozite, cu cele trei catene de la unu la unu la unu de la trei catene furnizate de la cea mai mare repetare a secvenței C-terminale și cea de la patru catene de la amino-terminal de secvență la prima repetare completă a secvenței, mecanism denumit „n-terminal de închidere a catenei de la 7-terminale” , (Fig. 1C). S-au examinat proteinele kelch-repeat umane prin predicția structurii secundare a foilor de la XV și prin analiza manuală a repetițiilor secvenței, și s-a constatat că pentru 77,5 % (55/71) din proteine s-a prezis că structura elicei de la XV va fi închisă printr-o catenă de la C-terminal de la XV. Pentru cinci secvențe, nu s-a putut face o predicție clară (Tabelul 1).
localizarea cromozomială a proteinelor repetate Kelch umane
secvențele de codificare pentru proteinele repetate Kelch umane sunt dispersate în întregul genom, fiind localizate pe toți cromozomii, cu excepția cromozomului 21 și a cromozomului Y (Tabelul 1). Au fost observate mai multe cazuri de gene în proximitate fizică, de exemplu NP_006460 și np_067646 la 1q31.3 și np_569713 și np_060114 la 3q27.3 (Tabelul 1). Cu toate acestea, în majoritatea cazurilor, acestea nu corespundeau secvențelor proteice cele mai strâns legate, așa cum ar fi de așteptat pentru genele duplicate recent. O excepție a fost NP_055130 și NP-751943 care erau situate la 14q21.3 și care erau cele mai strâns legate între ele (46% identitate). În general, nu au existat dovezi pentru gruparea fizică a secvențelor de codificare a proteinelor kelch în cadrul genomului uman. În schimb, genele care codifică numeroasele proteine F-box/kelch ale lui A. thaliana sunt grupate astfel încât unele dintre cele mai înrudite secvențe sunt codificate din locații genomice apropiate fizic .
arhitectura domeniului proteinelor umane repetate Kelch
douăzeci și opt de proteine repetate kelch din diferite organisme au fost grupate anterior în 5 categorii structurale în funcție de poziționarea repetărilor kelch în secvența polipeptidică și de prezența altor domenii structurale conservate . Pentru a evalua complexitatea arhitecturilor de domeniu într-un singur organism, fiecare secvență de proteine repetate Kelch umane a fost reanalizată prin căutarea împotriva CDD, SMART și Pfam și apoi subgrupată în funcție de arhitectura domeniului.
în mod surprinzător, 72 % (51/71) din proteinele repetate kelch umane conțineau un domeniu BTB/POZ. În toate proteinele, cu excepția uneia, domeniul BTB a fost amino-terminal la domeniul kelch (Tabelul 1). Această proteină ipotetică, LZTR-1, conținea două domenii BTB tandem. Patru (5,6%) proteine repetate kelch conțineau un singur domeniu suplimentar conservat. Muskelin a fost singura proteină repetată kelch identificată în genomul uman care conține un domeniu discoidin (CDD 7753, Pfam 00231, SMART 00231, cunoscut și sub numele de domeniul F5/F8 de tip C) (Prag, Collett și Adams, în pregătire). Domeniul discoidinei acționează ca un domeniu de interacțiune proteină-proteină într-un număr de proteine extracelulare și intracelulare și, în factorii de coagulare V și VIII, mediază legarea fosfolipidelor . O altă proteină kelch, XP_048774, conținea un domeniu F-box (CDD9197, Pfam 00646). F-box este un domeniu de aproximativ patruzeci de reziduuri, identificat pentru prima dată în ciclina a, care interacționează cu Skp1 pentru a ancora proteinele la ansamblul ubiquitin-ligază pentru ubiquitinare și direcționarea către degradarea mediată de proteozomi . Combinația dintre domeniile F-box și Kelch-repeat a fost descrisă anterior în A. thaliana, unde cel puțin 67 de proteine F-box/kelch și proteine ipotetice sunt codificate în genom . Mai multe dintre acestea funcționează în reglarea dependentă de lumină a ceasului circadian, dar funcția multor altele este obscură . Din câte știm, aceasta este prima recunoaștere a unei proteine F-box/kelch într-un genom animal. O proteină repetată kelch prezisă, NP_055608, conținea un domeniu leucină carboxil metiltansferază (LCM) (CDD9631, Pfam 04072) cu 34% identitate la domeniul LCM al proteinei fosfatază 2 leucină carboxil metiltransferază . Gena-2 care activează recombinarea (RAG-2) conține un domeniu deget homeodomain (PHD) al plantei (Pfam00628) la carboxi-terminal .
șase proteine repetate kelch (11 %) au fost proteine foarte mari, multidomain (Tabelul 1). Attractin / mahon (care sunt variante de îmbinare dintr-o singură genă; 27-29) și MEGF8 au fiecare peste 1000 de aminoacizi lungi și conțin un domeniu CUB, repetă kelch, un domeniu de lectină de tip C și domenii asemănătoare EGF. Diverse funcții au fost atribuite atractivinei și mahonului care includ un rol în interacțiunile celulelor T (atractivina, varianta de îmbinare secretată) și reglarea obezității la șoareci (mahon, varianta de îmbinare transmembranară) . Factorul celulei gazdă-1 și -2 (HCF-1 și HCF-2) sunt, de asemenea, proteine mari care conțin repetiții kelch amino-terminale, două domenii de fibronectină de tip III și, în cazul HCF-1, o serie de repetări HCF unice. Aceste proteine funcționează ca coactivatori transcripționali ai virusului herpes simplex expresie genetică timpurie imediată .
am identificat trei proteine ipotetice repetate kelch ca conținând secvențe unice fără legătură care nu corespundeau domeniilor structurale recunoscute, poziționate fie amino -, fie carboxi – terminale la repetițiile kelch (Tabelul 1).
Efectorul Rab9 p40 și alte șase proteine repetate kelch au fost polipeptide scurte, de la 350-442 aminoacizi în lungime, care au constat aproape în întregime din repetări kelch (Tabelul 1). Cinci dintre aceste proteine sau proteine ipotetice, inclusiv p40, conțineau șase repetări ale secvenței și, prin urmare, se preconizează că vor forma elice cu șase lame de la XV. Două proteine ipotetice, NP_060673 și XP_114323, au constat din prezumtive elice cu șapte lame de la un număr de centuri. Împreună, aceste distincții structurale formează baza pentru noua clasificare a proteinelor kelch-repetate umane care este prezentată aici (Tabelul 1).
relații structurale ale proteinelor BTB/kelch umane
numărul neașteptat de mare de proteine BTB/kelch codificate în genomul uman ne-a determinat să studiem acest grup mai detaliat, cu scopul de a identifica subgrupuri structurale care ar putea reprezenta și subseturi funcționale. Cele 38 de secvențe de lungime completă care conțineau domenii BTB unice și prezise elice cu șase lame de la XV au fost aliniate în funcție de similitudinea secvenței în CLUSTALW și privite ca copaci care unește vecinătatea. Alinierea secvențelor de lungime completă a evidențiat trei subgrupuri de dimensiuni aproximativ egale, pe care le-am denumit subgrupuri de la 1 la 3 (Fig. 2A). Când aceeași analiză a fost efectuată numai cu domeniile kelch, aceeași grupare a fost evidentă pentru subgrupul 1 și o proporție substanțială a subgrupului 2, denumită subgrupul 2a (Fig. 2B). Într-o aliniere numai a domeniilor BTB, subgrupurile 1 și 2 au fost menținute pentru majoritatea secvențelor (Fig. 2C). Arborii nerădăcinați produși printr-o metodă separată de aliniere bazată pe analiza maximă a parsimoniei secvențelor, PROTPARS, nu au susținut subgrupul 3, dar au demonstrat în mod constant relația secvențelor din subgrupurile 1 și 2a (datele nu sunt prezentate). Ne-am concentrat pe aceste secvențe de repetare kelch în subgrupurile 1 și 2a, pentru o analiză mai atentă a domeniilor de repetare kelch.
alinierea secvenței multiple CLUSTALW a domeniilor kelch-repeat din fiecare dintre subgrupurile 1 și 2a a demonstrat trăsături distinctive în ceea ce privește organizarea repetată. În ambele subgrupe (Fig. 3 și Fig. 4), bucla intrablade între toroanele 2 și 3 ale segmentului 2-3 (bucla 2-3, Fig. 5A) și bucla interblade 4-1 au fost surse majore de variație în cadrul repetițiilor în ceea ce privește lungimea și structura lor primară. În contextul unui domeniu intact cu elice de tip XV, buclele 1-2 și 3-4 ies în afară deasupra unei fețe a foilor de tip XV, iar bucla de 2-3 iese din fața opusă (Fig. 5A). Bucla 4-1 se află fie pe aceeași față cu bucla 2-3, fie poate fi poziționată mai aproape de miezul de foi de la centimetrul elicei (Fig. 5). În subgrupul 1, cele mai lungi 2-3 bucle au fost găsite în repetițiile 1, 5 și 6, cu bucle mai scurte în lamele 2, 3 și 4. Cea mai lungă buclă 4-1 a fost cea dintre repetițiile 5 și 6 (Fig. 3). În contextul unei elice cu un număr de centix, acest lucru sugerează că partea elicei formată din repetițiile 5, 6 și 1 poate fi implicată în special în interacțiunile proteice (vezi Fig. 1C). În subgrupul 2a, cele mai lungi 2-3 bucle au fost cele din repetările 1 și 2, repetările 4 și 5 au avut 2-3 bucle intermediare, iar repetările 3 și 6 au conținut cele mai scurte 2-3 bucle. Cele mai lungi 4-1 bucle au fost cele dintre repetițiile 1 și 2 și repetările 3 și 4 (Fig. 4). Acest lucru sugerează că există o organizare diferită a site-urilor de legare în subgrupul 2A elice-elice, cu probabil două fețe de legare formate din repetările 1 și 2 și repetările 4 și 5. La nivelul secvențelor individuale, au existat, de asemenea, exemple specifice de variație față de organizarea repetată standard care ar putea avea o importanță funcțională pentru proteinele individuale. De exemplu, NP_695002 în subgrupul 2a are o buclă 3-4 neobișnuit de lungă și foarte încărcată în repetare 1 și XP_ 040383 are o buclă lungă 3-4 în repetare 4 (Fig. 4).
de asemenea, am constatat că secvențele de consens pentru fold au fost distincte între cele două subgrupuri. Secvența de consens de identitate de 50% din fiecare subgrup a fost realiniată împotriva unității de repetare kelch pentru a obține secvențe medii de consens de identitate de 50% pentru subgrupul 1 și subgrupul 2a. aceste motive au fost mapate în raport cu structura cunoscută a lamei galactoză oxidază (Fig. 5). Motivele consensului au inclus atât aminoacizi de importanță pentru pliu (situați în cadrul catenelor de la XV), cât și anumiți aminoacizi din bucle, care s-ar anticipa că vor contribui la interacțiunile de legare. De remarcat, lungimea medie a motivului a fost mai scurtă în subgrupul 1 decât subgrupul 2A. Se preconizează că consensul subgrupului 2A va conține o buclă mai lungă de 2-3. Motivele consensului au fost distincte în poziționarea reziduurilor încărcate foarte conservate în regiunile buclei (Fig. 5). Conservarea acestor reziduuri încărcate a fost cea mai pronunțată în subgrupul 1, unde aceste poziții au fost conservate în motiv până la nivelul pragului de identitate de 70% (datele nu sunt prezentate). Aceste distincții în caracteristicile buclei sunt, de asemenea, sugestive pentru diferite modalități de interacțiune proteină-proteină pentru elicele de la XV din subgrupurile 1 și 2a. În ceea ce privește proprietățile de legare a proteinelor caracterizate anterior, am observat că proteinele BTB/kelch care se leagă de actină au fost împărțite între subgrupurile 1 și 3; astfel, această funcție nu are o relație simplă cu structura primară (Fig. 2A).
proteine repetate Kelch codificate în genomul nevertebratelor
am dorit să comparăm evoluția evolutivă a proteinelor repetate kelch între oameni și nevertebratele moderne și astfel am repetat analiza proteinelor repetate kelch și a subgrupurilor lor structurale codificate în genomul D. melanogaster, A. gambiae și C. elegans . Am identificat 18 proteine repetate kelch codificate în genomul Drosophila și Anopheles (Tabelul 2). Șaptesprezece dintre acestea au fost ortologi conservați între cele două specii (identitatea medie dintre genele ortologice ale D. melanogaster și A. gambiae este de 56 % ) și unul a fost unic pentru fiecare specie. Astfel, un omolog Actinfilin a fost identificat în A. gambiae, dar nu în D. melanogaster, iar genomul D. melanogaster conținea un omolog de NP_116164 care nu era prezent în A. gambiae (Tabelul 2). Doar trei proteine kelch repetate au fost caracterizate anterior în D. melanogaster, și anume Kelch , Muskelin și factorul celulei gazdă Drosophila . Alte două, diablo și scruin-ca la linia mediană (SLIM-1), au fost recunoscute ca proteine kelch-repeat .
în cadrul grupului de 19 proteine și proteine ipotetice, 95% conțineau șase repetări kelch. O singură proteină cu cinci repetări kelch a fost identificată fie în D. melanogaster, fie în A. gambiae, care corespundea unui ortolog al proteinei umane F-box/kelch, XP_048774 (Tabelul 2). 56% din proteinele repetate kelch ale D. melanogaster și A. gambiae au fost proteine BTB/kelch. Atât D. melanogaster, cât și A. gambiae conțineau o proteină discoidină/kelch ortologă la muskelin, o proteină F-box/kelch, trei proteine kelch și multidomain, o proteină kelch și unică și două proteine numai cu elice. Astfel, toate cele 19 proteine repetate Kelch identificate au avut omologi în genomul uman, iar arhitectura domeniului BTB/kelch a fost cea mai răspândită (Tabelul 2).
am identificat 16 proteine repetate kelch codificate în genomul C. elegans (Tabelul 3). Dintre aceste proteine, doar kel-1, spe-26 și CeHCF au fost caracterizate funcțional. Kel-1 este o proteină intracelulară implicată în reglarea comportamentului de hrănire în timpul dezvoltării larvelor . Spe – 26 contribuie la organizarea celulară a spermatocitelor, iar mutațiile sunt asociate cu sterilitatea . CeHCF ar putea fi implicat în reglarea proliferării celulare . 43.7% (7/16) din proteine aveau arhitectura domeniului BTB/kelch, două erau omologi ai HCF și attractin cu arhitecturi multidominale similare, două conțineau secvențe unice în afara repetițiilor kelch și două erau proteine numai cu elice, ambele fiind prezise că vor forma elice cu șase lame de la sută. A fost identificată o singură proteină F-box/kelch, dar nu a fost găsită nicio proteină asemănătoare muskelinei (Tabelul 3),. În schimb, au fost identificate două proteine ipotetice cu arhitecturi de domeniu distincte : NP_506605 care conținea și un domeniu ciclin carboxi-terminal (CDD 7965, Pfam 02984, SMART 00385) și NP_506602, care conținea un domeniu RING (CDD 8941, Pfam 00097, SMART 00184). Domeniul carboxi-terminal al ciclinei formează un pliu-elicoidal cu un număr de X-X care poate constitui un situs de interacțiune proteică . Domeniul inelar este un pliu zinc-deget care mediază interacțiunile proteine-proteine .
proteinele repetate Kelch codificate în genomii de drojdie
mai multe proteine repetate kelch au fost studiate funcțional în drojdia de înmugurire și fisiune, dar niciuna dintre acestea nu corespunde proteinelor BTB/kelch . Am investigat dacă prevalența arhitecturii domeniului BTB / kelch pe care am identificat-o la animalele multicelulare s-a extins la drojdie, analizând complementul proteinelor repetate kelch codificate în genomii S. pombe și S. cerevisiae . Am descoperit că fiecare genom a codificat un număr mic de proteine kelch-repeat (cinci în S. pombe, opt în S. cerevisiae), dintre care niciuna nu corespundea unei proteine BTB/kelch (Tabelul 4). Proteinele și proteinele ipotetice constând dintr-o elice amino-terminală kelch și o regiune extinsă cu bobină înfășurată și o proteină corespunzătoare unei leucine carboxil metiltransferaze presupuse au fost comune S. pombe și S. cerevisiae. Celelalte proteine repetate kelch codificate au fost neomoloage (Tabelul 4). Proteina 1 asemănătoare muskelinului și Ral-2p au fost identificate în S. pombe, dar nu și în S. cerevisiae . Două proteine cu repetări kelch legate la distanță, Gpb1/Krh1 și Gpb2 / Krh2, au fost caracterizate funcțional ca proteine de legare a receptorilor cuplate cu proteina G în S. cerevisiae . Proteinele omoloage nu au fost identificate în S. pombe în contextul studiului nostru. Astfel, arhitectura domeniului BTB / kelch nu a fost identificată în aceste drojdii.
restricția proteinelor BTB / kelch la animale metazoane și poxvirusuri
deoarece arhitectura domeniului BTB / kelch a apărut predominantă la animale, dar nu a fost identificată în drojdie, am fost interesați să luăm în considerare dacă alte organisme ar putea conține proteine repetate kelch cu această arhitectură de domeniu. Un număr de proteine BTB/kelch au fost raportate ca cadre ipotetice de citire deschisă (ORFs) în familia de virusuri animale poxvirus . Baza de date Conserved Domain Architecture Retrieval Tool (CDART) de la NCBI listează 333 de intrări pentru proteinele BTB/kelch, toate provenind de la vertebrate, insecte, C. elegans sau poxvirusuri. Până în prezent, domeniul BTB a fost identificat doar în eucariote (Arborele speciilor Pfam 00651). În plus față de revizuirea arborilor de specii inteligente și Pfam pentru clasificarea arhitecturii domeniului BTB/kelch, am efectuat propriile noastre căutări BLASTP și TBLASTX ale A. baza de date a genomului thaliana cu consensul motivului CDD kelch (acest instrument de căutare a identificat 44 de proteine BTB/kelch din genomul uman și este astfel foarte eficient în descoperirea acestor proteine) și a identificat 72 de secvențe de proteine, dintre care majoritatea erau proteine F-box/kelch, dintre care unele erau proteine serin-treonină fosfatază/kelch, și niciuna dintre ele nu erau proteine BTB/kelch. Căutările cu domeniile BTB ale mai multor proteine repetate kelch umane sau nevertebrate nu au identificat, de asemenea, proteine BTB/kelch în A. thaliana. BLAST genomes căutări ale bazelor de date ale genomurilor eucariote animale și plante complete sau parțial secvențiate la NCBI (Entrez/genome_tree, ), care includeau genomii complet secvențiați ai Apicomplexium Plasmodium falciparum , microsporidium Encephalitozoon cuniculi , planta Oryza sativa (orez; ) și ciuperca Neurospora crassa au identificat multe proteine prezise care conțin repetiții kelch, dar nu ORFs care aveau arhitectura domeniului BTB/kelch. Rezultatele pentru arhitecturile de domeniu selectate în cinci organisme eucariote sunt prezentate în Fig. 6. Cu toate acestea, am remarcat în speciile Apicomplexia, două proteine cu arhitectura domeniului K Tetra /kelch (NP_705330 și EAA22466). Domeniul k tetra (Pfam 02214) este o rudă structurală îndepărtată a domeniului BTB/POZ . În general, aceste rezultate oferă o indicație semnificativă că secvențele de codificare a proteinelor pentru arhitectura domeniului BTB/kelch s-au extins în timpul evoluției animalelor multicelulare, comparativ cu Apicomplexia, ciupercile, plantele și alte eucariote.