Filogenesi molecolare del kelch-ripetere superfamiglia rivela un'espansione del BTB/kelch proteine animali | BMC Bioinformatics

Identificazione e la caratterizzazione di kelch-ripetere le proteine codificate nel genoma umano
Localizzazione cromosomica delle proteine kelch-repeat umane
Domain Architecture of Human Kelch-repeat proteins
Relazioni strutturali delle proteine umane BTB/kelch
Proteine Kelch-repeat codificate nei genomi di invertebrati
Proteine Kelch-repeat codificate nei genomi di lievito
Restrizione delle proteine BTB / kelch agli animali metazoici e ai poxvirus

Identificazione e la caratterizzazione di kelch-ripetere le proteine codificate nel genoma umano

Per identificare il kelch-ripetere le proteine codificate nel genoma umano, BLAST e PSI-BLAST ricerca del genoma umano proteina predetta banca dati sono state effettuate con il kelch motivo di consenso (CDD543, Pfam01344, SMART 00612) come una sequenza query. Questa ricerca ha identificato 57 proteine kelch-repeat e proteine ipotetiche. Abbiamo notato che molte delle proteine umane kelch-repeat conosciute non sono state identificate con questo metodo, probabilmente perché ci sono relativamente pochi residui di consenso in ogni motivo kelch, nessuno dei quali è completamente invariante in tutti gli esempi del motivo, e anche a causa della variazione delle lunghezze dei cappi tra i filamenti β . Pertanto ulteriori ricerche sono state fatte con le ripetizioni kelch di tutti i 28 membri della superfamiglia noti, come descritto nei Metodi. Queste ricerche hanno identificato 18 ulteriori proteine kelch-repeat codificate nel genoma umano. Facendo riferimento incrociato a tutte le 75 voci rispetto a GenBank, 9 delle voci sono state identificate come sequenze parziali e/o voci duplicate per la stessa proteina o ORF ipotetica e due delle voci come proteine non contenenti kelch. Abbiamo anche incrociato i risultati della ricerca con le voci di dominio per kelch nei database Pfam e SMART domain. Molte voci erano elencate sia in SMART che in Pfam, tuttavia un certo numero di proteine che avevamo identificato non erano elencate in questi database (indicato nella Tabella 1), anche se quando abbiamo cercato questi polipeptidi contro SMART o Pfam, i motivi kelch erano chiaramente identificati. Inoltre, il numero di proteine kelch repeat assegnate a H. sapiens nei collegamenti Specie tree o Taxbreak di Pfam e SMART è stato sopravvalutato a causa dell’inclusione di ORFs incompleti e voci multiple per lo stesso polipeptide. Abbiamo anche effettuato ulteriori ricerche di GenBank con motivi kelch singoli dalle 28 proteine kelch-repeat note che erano nettamente più lunghe del consenso kelch-motif CDD, al fine di cercare più estesamente proteine contenenti ripetizioni più divergenti. Da queste valutazioni multiple e con esclusione di sequenze parziali (come descritto nei Metodi), abbiamo identificato almeno 71 proteine kelch-repeat codificate nel genoma umano (Tabella 1).

Tabella 1 Kelch-ripetere le proteine di H. sapiens

Per determinare il numero di motivi kelch ripetuti in ogni proteina o proteina ipotetica, sono state effettuate ricerche BLASTP con ciascuna sequenza contro il Database del dominio conservato (CDD) e Pfam, insieme all’identificazione manuale dei motivi kelch. Il numero di motivi kelch identificati variava da due a sette. Quattro lame è il numero minimo che è stato documentato da strutture cristalline di domini β-elica . Pertanto, è apparso improbabile che le voci che codificano due o tre motivi kelch corrispondessero a ORF completi e questi sono stati esclusi da ulteriori analisi (voci NP-689579, XP_209285, XP_058629). Su questa base, si prevedeva che il 12,7 % (9/71) delle sequenze contenesse eliche β a cinque pale, l ‘ 84,5 % (60/71) fosse a sei pale e il 2,8% (2/71) contenesse eliche β a sette pale (Tabella 1). A nostra conoscenza, solo una proteina kelch repeat a sette lame è stata identificata in precedenza, la galattosio ossidasi fungina .

Nella galattosio ossidasi, la singola proteina kelch-repeat per la quale esistono informazioni sulla struttura cristallina, l’elica viene circolarizzata mediante formazione di una settima lama composita, con i filamenti da β-uno a β-tre forniti dalla ripetizione della sequenza più C-terminale e il filamento β-quattro fornito dalla sequenza amino-terminale alla prima ripetizione della sequenza completa, un meccanismo denominato “Chiusura del filamento β-terminale N” (Fig. 1C). Abbiamo esaminato le proteine umane kelch-repeat mediante la previsione della struttura secondaria dei fogli β e l’analisi manuale delle ripetizioni di sequenza, e abbiamo scoperto che per il 77,5 % (55/71) delle proteine la struttura β-elica era prevista per essere chiusa da un filamento β C-terminale. Per cinque sequenze, non è stata possibile fare una previsione chiara (Tabella 1).

Localizzazione cromosomica delle proteine kelch-repeat umane

Le sequenze codificanti per le proteine kelch-repeat umane sono disperse in tutto il genoma, essendo localizzate su tutti i cromosomi ad eccezione del cromosoma 21 e del cromosoma Y (Tabella 1). Sono state notate diverse istanze di geni in prossimità fisica, ad esempio NP_006460 e NP_067646 a 1q31.3 e NP_569713 e NP_060114 a 3q27.3 (Tabella 1). Tuttavia, nella maggior parte dei casi questi non corrispondevano alle sequenze proteiche più strettamente correlate come ci si aspetterebbe per i geni duplicati di recente. Un’eccezione era NP_055130 e NP-751943 che si trovavano a 14q21.3 e che erano i più strettamente correlati tra loro (46% identità). Nel complesso, non c’era alcuna prova per il raggruppamento fisico di sequenze di codifica della proteina kelch all’interno del genoma umano. Al contrario, i geni che codificano le numerose proteine F-box/kelch di A. thaliana sono raggruppati in modo tale che alcune delle sequenze più altamente correlate sono codificate da posizioni genomiche fisicamente vicine .

Domain Architecture of Human Kelch-repeat proteins

Ventotto proteine kelch-repeat di vari organismi sono state precedentemente raggruppate in 5 categorie strutturali in base al posizionamento delle ripetizioni kelch all’interno della sequenza polipeptidica e alla presenza di altri domini strutturali conservati . Per valutare la complessità delle architetture di dominio all’interno di un singolo organismo, ogni sequenza proteica kelch-repeat umana è stata ri-analizzata ricercando CDD, SMART e Pfam e quindi sottogruppata in base all’architettura di dominio.

Sorprendentemente, il 72 % (51/71) delle proteine umane kelch-repeat conteneva un dominio BTB/POZ. In tutte le proteine tranne una, il dominio BTB era amino-terminale del dominio kelch (Tabella 1). Questa ipotetica proteina, LZTR-1, conteneva due domini BTB tandem. Quattro (5,6%) proteine kelch-repeat contenevano un singolo dominio conservato aggiuntivo. Muskelin era l’unica proteina kelch-repeat identificata nel genoma umano per contenere un dominio discoidina (CDD 7753, Pfam 00231, SMART 00231, noto anche come dominio di tipo C F5/F8) (Prag, Collett e Adams, in preparazione). Il dominio discoidina agisce come un dominio di interazione proteina-proteina in un certo numero di proteine extracellulari e intracellulari e, nei fattori di coagulazione V e VIII, media il legame dei fosfolipidi . Un’altra proteina kelch, XP_048774, conteneva un dominio F-box (CDD9197, Pfam 00646). La F-box è un dominio di circa quaranta residui, identificati per la prima volta nella ciclina A, che interagisce con Skp1 per ancorare le proteine all’assemblaggio ubiquitina-ligasi per l’ubiquitinazione e il targeting per la degradazione mediata dai proteosomi . La combinazione di domini F-box e kelch-repeat è stata precedentemente descritta in A. thaliana, dove almeno 67 proteine F-box/kelch e proteine ipotetiche sono codificate nel genoma . Molti di questi funzionano nella regolazione dipendente dalla luce dell’orologio circadiano, ma la funzione di molti altri è oscura . A nostra conoscenza, questo è il primo riconoscimento di una proteina F-box/kelch in un genoma animale. Una proteina kelch-repeat prevista, NP_055608, conteneva un dominio leucina carbossil metiltansferasi (LCM) (CDD9631, Pfam 04072) con il 34% di identità al dominio LCM della proteina fosfatasi 2 leucina carbossil metiltransferasi . Il gene-2 attivante la ricombinazione (RAG-2) contiene un dominio del dito dell’omeodominio (PHD) della pianta (Pfam00628) al carbossi-terminale .

Sei proteine kelch-repeat (11 %) erano proteine multidominio molto grandi (Tabella 1). Attractin / mogano (che sono varianti di giunzione da un singolo gene; 27-29) e MEGF8 sono ciascuno oltre 1000 aminoacidi lunghi e contenevano un dominio CUB, ripetizioni kelch, un dominio lectina di tipo C e domini simili a EGF. Diverse funzioni sono state attribuite all’attractina e al mogano che includono un ruolo nelle interazioni delle cellule T (attractina, la variante della giuntura secreta) e nella regolazione dell’obesità nei topi (mogano, la variante della giuntura transmembrana) . Fattore-1 e -2 della cellula ospite (HCF-1 e HCF-2) sono inoltre grandi proteine che contengono le kelch-ripetizioni amminico-terminali, due domini di tipo III della fibronectina e, nel caso di HCF-1, una serie di ripetizioni uniche di HCF. Queste proteine funzionano come coattivatori trascrizionali dell’espressione genica precoce immediata del virus dell’herpes simplex .

Abbiamo identificato tre ipotetiche proteine kelch-repeat come contenenti sequenze uniche non correlate che non corrispondevano a domini strutturali riconosciuti, posizionati amino – o carbossi-terminali alle ripetizioni kelch (Tabella 1).

Rab9 effector p40 e sei altre proteine kelch-repeat erano polipeptidi brevi, da 350-442 aminoacidi di lunghezza, che consisteva quasi interamente di ripetizioni kelch (Tabella 1). Cinque di queste proteine o proteine ipotetiche, incluso p40, contenevano sei ripetizioni di sequenza e quindi si prevede che formino β-eliche a sei pale. Due proteine ipotetiche, NP_060673 e XP_114323, consistevano in ipotetiche β-eliche a sette pale. Insieme, queste distinzioni strutturali costituiscono la base per la nuova categorizzazione delle proteine umane kelch-repeat che viene presentata qui (Tabella 1).

Relazioni strutturali delle proteine umane BTB/kelch

Il numero inaspettatamente elevato di proteine BTB/kelch codificate nel genoma umano ci ha spinto a studiare questo gruppo in modo più dettagliato, con l’obiettivo di identificare sottogruppi strutturali che potrebbero anche rappresentare sottoinsiemi funzionali. Le 38 sequenze full-length che contenevano singoli domini BTB e prevedevano β-eliche a sei pale sono state allineate in base alla somiglianza della sequenza in CLUSTALW e viste come alberi che si uniscono al vicinato. L’allineamento delle sequenze a tutta lunghezza ha rivelato tre sottogruppi di dimensioni approssimativamente uguali, che abbiamo definito sottogruppi da 1 a 3 (Fig. 2 BIS). Quando la stessa analisi è stata eseguita con i soli domini kelch, lo stesso raggruppamento era evidente per il sottogruppo 1 e una proporzione sostanziale del sottogruppo 2, chiamato sottogruppo 2A (Fig. 2 TER). In un allineamento dei soli domini BTB, i sottogruppi 1 e 2 sono stati mantenuti per la maggior parte delle sequenze (Fig. 2 QUATER). Gli alberi senza radici prodotti con un metodo separato per l’allineamento basato sull’analisi massima parsimonia delle sequenze, PROTPARS, non supportavano il sottogruppo 3 ma dimostravano costantemente la relazione delle sequenze nei sottogruppi 1 e 2A (dati non mostrati). Ci siamo concentrati su queste sequenze kelch-repeat fortemente correlate nei sottogruppi 1 e 2A, per un’analisi più approfondita dei domini kelch-repeat.

CLUSTALW multiple sequence alignment of the kelch-repeat domains from each of sottogruppi 1 and 2A dimostrated distinctive features in terms of repeat organization. In entrambi i sottogruppi (Fig. 3 e Fig. 4), il ciclo intrablade tra β-trefoli 2 e 3 (il ciclo 2-3, Fig. 5A) e l’interblade 4-1 loop erano le principali fonti di variazione all’interno delle ripetizioni per quanto riguarda la loro lunghezza e struttura primaria. Nel contesto di un dominio β-elica intatto, i cicli 1-2 e 3-4 sporgono sopra una faccia dei fogli β e il ciclo 2-3 sporge dalla faccia opposta (Fig. 5 BIS). Il ciclo 4-1 si trova sulla stessa faccia del ciclo 2-3, o può essere posizionato più vicino al nucleo del β-foglio dell’elica (Fig. 5). Nel sottogruppo 1, i 2-3 anelli più lunghi sono stati trovati nelle ripetizioni 1, 5 e 6, con anelli più corti nelle lame 2, 3 e 4. Il ciclo 4-1 più lungo era quello tra le ripetizioni 5 e 6 (Fig. 3). Nel contesto di un’elica β, ciò suggerisce che il lato dell’elica formato dalle ripetizioni 5, 6 e 1 può essere particolarmente coinvolto nelle interazioni proteiche (vedi Fig. 1C). Nel sottogruppo 2A, i cicli 2-3 più lunghi erano quelli delle ripetizioni 1 e 2, le ripetizioni 4 e 5 avevano cicli 2-3 intermedi e le ripetizioni 3 e 6 contenevano i cicli 2-3 più brevi. I 4-1 loop più lunghi erano quelli tra le ripetizioni 1 e 2 e le ripetizioni 3 e 4 (Fig. 4). Ciò suggerisce che esiste una diversa organizzazione dei siti di legame nel sottogruppo 2A β-eliche, con forse due facce di legame formate da ripetizioni 1 e 2 e ripetizioni 4 e 5. A livello di singole sequenze, c’erano anche esempi specifici di variazione rispetto all’organizzazione standard di ripetizione che potevano essere di importanza funzionale per le singole proteine. Ad esempio, NP_695002 nel sottogruppo 2A ha un ciclo 3-4 insolitamente lungo e altamente caricato nella ripetizione 1 e XP_ 040383 ha un ciclo 3-4 lungo nella ripetizione 4 (Fig. 4).

Abbiamo anche scoperto che le sequenze di consenso per la piega erano distintive tra i due sottogruppi. La sequenza di consenso identitario del 50% da ciascun sottogruppo è stata riallineata rispetto all’unità kelch-repeat per derivare sequenze di consenso identitario del 50% medio per il sottogruppo 1 e il sottogruppo 2A. Questi motivi sono stati mappati contro la nota struttura a lama della galattosio ossidasi (Fig. 5). I motivi di consenso includevano sia aminoacidi di importanza per la piega (situati all’interno dei filamenti β) che alcuni amminoacidi all’interno dei loop, che sarebbero stati predetti per contribuire alle interazioni di legame. Da notare, la lunghezza media del motivo era più breve nel sottogruppo 1 rispetto al sottogruppo 2A. Si prevede che il consenso del sottogruppo 2A contenga un ciclo 2-3 più lungo. I motivi di consenso erano distinti nel posizionamento di residui carichi altamente conservati all’interno delle regioni del ciclo (Fig. 5). La conservazione di questi residui carichi è stata più pronunciata nel sottogruppo 1, dove queste posizioni sono state conservate nel motivo fino al livello di soglia di identità del 70% (dati non mostrati). Queste distinzioni nelle caratteristiche del ciclo sono anche suggestive di diverse modalità di interazioni proteina-proteina per le β-eliche dei sottogruppi 1 e 2A. Per quanto riguarda le proprietà di legame alle proteine precedentemente caratterizzate, abbiamo osservato che le proteine BTB / kelch che si legano all’actina sono state divise tra i sottogruppi 1 e 3; quindi questa funzione non ha una semplice relazione con la struttura primaria (Fig. 2 BIS).

Proteine Kelch-repeat codificate nei genomi di invertebrati

Abbiamo voluto confrontare lo sviluppo evolutivo delle proteine kelch-repeat tra l’uomo e gli invertebrati moderni, e così abbiamo ripetuto l’analisi delle proteine kelch-repeat e dei loro sottogruppi strutturali codificati nei genomi di D. melanogaster, A. gambiae e C. elegans . Abbiamo identificato 18 proteine kelch-repeat codificate nei genomi Drosophila e Anopheles (Tabella 2). Diciassette di questi erano ortologhi conservati tra le due specie (l’identità media tra i geni ortologhi di D. melanogaster e A. gambiae è del 56 % ) e uno era unico per ogni specie. Pertanto, un omologo di Actinfilin è stato identificato in A. gambiae ma non in D. melanogaster e il genoma di D. melanogaster conteneva un omologo di NP_116164 che non era presente in A. gambiae (Tabella 2). Solo tre proteine kelch-repeat sono state precedentemente caratterizzate in D. melanogaster, vale a dire Kelch , Muskelin e Drosophila fattore delle cellule ospiti . Altri due, diablo e scruin-like alla linea mediana (SLIM-1), sono stati riconosciuti come proteine kelch-repeat .

Tabella 2 Proteine Kelch-repeat di D. melanogaster e A. gambiae

All’interno del gruppo di 19 proteine e proteine ipotetiche, il 95% conteneva sei ripetizioni kelch. Solo una proteina con cinque ripetizioni kelch è stata identificata in D. melanogaster o A. gambiae, che corrispondeva a un ortologo della proteina F-box/kelch umana, XP_048774 (Tabella 2). il 56% delle proteine kelch-repeat di D. melanogaster e A. gambiae erano proteine BTB/kelch. Sia D. melanogaster che A. gambiae contenevano una proteina discoidina/kelch orthologous a muskelin, una proteina F-box/kelch, tre proteine kelch e multidomain, una proteina kelch e unique e due proteine solo elica. Pertanto, tutte le 19 proteine kelch-repeat identificate avevano omologhi nel genoma umano e l’architettura del dominio BTB / kelch era la più diffusa (Tabella 2).

Abbiamo identificato 16 proteine kelch-repeat codificate all’interno del genoma di C. elegans (Tabella 3). Di queste proteine, solo kel-1, spe-26 e CeHCF sono state caratterizzate funzionalmente. Kel-1 è una proteina intracellulare coinvolta nella regolazione del comportamento alimentare durante lo sviluppo larvale . Spe-26 contribuisce all’organizzazione cellulare degli spermatociti e le mutazioni sono associate alla sterilità . CeHCF potrebbe essere coinvolto nella regolazione della proliferazione cellulare . 43.il 7% (7/16) delle proteine aveva l’architettura del dominio BTB/kelch, due erano omologhi di HCF e attractin con architetture multidominio simili, due contenevano sequenze uniche al di fuori delle ripetizioni kelch e due erano proteine solo elica, entrambe le quali erano previste per formare β-eliche a sei pale. È stata identificata una singola proteina F-box/kelch, ma non è stata trovata alcuna proteina simile alla muskelina (Tabella 3). Invece, sono state identificate due ipotetiche proteine con architetture di dominio distintive : NP_506605 che conteneva anche un dominio carbossiminale ciclina (CDD 7965, Pfam 02984, SMART 00385) e NP_506602, che conteneva un dominio ad ANELLO (CDD 8941, Pfam 00097, SMART 00184). Il dominio carbossi-terminale della ciclina forma una piega α-elicoidale che può costituire un sito di interazione proteica . Il dominio dell’ANELLO è una piega a dito di zinco che media le interazioni proteina-proteina .

Tabella 3 Kelch-ripetere le proteine di C. elegans

Proteine Kelch-repeat codificate nei genomi di lievito

Diverse proteine kelch-repeat sono state studiate funzionalmente nel lievito in erba e di fissione, ma nessuna di queste corrisponde alle proteine BTB/kelch . Abbiamo studiato se la prevalenza dell’architettura del dominio BTB / kelch che avevamo identificato in animali multicellulari estesi al lievito, analizzando il complemento delle proteine kelch-repeat codificate nei genomi di S. pombe e S. cerevisiae . Abbiamo scoperto che ogni genoma ha codificato un piccolo numero di proteine kelch-repeat (cinque in S. pombe, otto in S. cerevisiae), nessuna delle quali corrispondeva a una proteina BTB / kelch (Tabella 4). Le proteine e le proteine ipotetiche costituite da un’elica β-kelch amino-terminale e da una regione a spirale estesa e da una proteina corrispondente a una putativa leucina carbossil metiltransferasi erano comuni a S. pombe e S. cerevisiae. Le altre proteine kelch-repeat codificate erano non omologhe (Tabella 4). La proteina 1 simile alla muskelina e Ral-2p sono state identificate in S. pombe ma non in S. cerevisiae . Due proteine con ripetizioni kelch distanti-correlate, Gpb1 / Krh1 e Gpb2 / Krh2, sono state caratterizzate funzionalmente come proteine leganti recettori accoppiate a proteine G in S. cerevisiae . Le proteine omologhe non sono state identificate in S. pombe nel contesto del nostro studio. Pertanto, l’architettura del dominio BTB / kelch non è stata identificata in questi lieviti.

Tabella 4 Proteine Kelch-repeat di S. cerevisiae e S. pombe

Restrizione delle proteine BTB / kelch agli animali metazoici e ai poxvirus

Poiché l’architettura del dominio BTB/kelch appariva prevalente negli animali ma non era identificata nel lievito, eravamo interessati a considerare se altri organismi potessero contenere proteine kelch-repeat con questa architettura di dominio. Un certo numero di proteine BTB / kelch sono state segnalate come ipotetici open reading frames (ORFs) nella famiglia di virus poxvirus di virus animali . Il database CDART (Conserved Domain Architecture Retrieval Tool) dell’NCBI elenca 333 voci per proteine BTB / kelch, tutte originarie di vertebrati, insetti, C. elegans o poxvirus. Ad oggi, il dominio BTB è stato identificato solo negli eucarioti (Pfam 00651 species tree). Oltre a rivedere gli alberi delle specie SMART e Pfam per la categorizzazione dell’architettura di dominio BTB / kelch, abbiamo condotto le nostre ricerche BLASTP e TBLASTX dell’A. thaliana genome database con il CDD kelch motif consensus (questo strumento di ricerca ha identificato 44 proteine BTB / kelch dal genoma umano ed è quindi molto efficace nel scoprire queste proteine) e ha identificato 72 sequenze proteiche, la maggior parte delle quali erano proteine F-box/kelch, alcune delle quali erano proteine serina-treonina fosfatasi/kelch, e nessuna delle quali erano proteine BTB/kelch. Anche le ricerche con i domini BTB di diverse proteine kelch-repeat umane o invertebrate non hanno identificato le proteine BTB / kelch in A. thaliana. BLAST genomes ricerche dei database di genomi eucarioti animali e vegetali completi o parzialmente sequenziati presso NCBI (Entrez/genome_tree, ), che includevano i genomi completamente sequenziati dell’Apicomplexium Plasmodium falciparum , del Microsporidium Encephalitozoon cuniculi, della pianta Oryza sativa (rice; ) e del fungo Neurospora crassa hanno identificato molte proteine predette contenenti kelch-repeat, ma nessun ORFs che aveva l’architettura del dominio BTB/kelch. I risultati per architetture di dominio selezionate in cinque organismi eucarioti sono presentati in Fig. 6. Tuttavia, abbiamo notato nelle specie di Apicomplexia, due proteine con architettura di dominio K Tetra /kelch (NP_705330 e EAA22466). Il dominio K tetra (Pfam 02214) è un lontano parente strutturale del dominio BTB/POZ . Nel complesso, questi risultati forniscono un’indicazione significativa che le sequenze di codifica delle proteine per l’architettura del dominio BTB / kelch si sono espanse durante l’evoluzione degli animali multicellulari, rispetto all’Apicomplessia, ai funghi, alle piante e ad altri eucarioti.

filogenesi Molecolare del kelch-ripetere superfamiglia rivela un’espansione del BTB/kelch proteine animali