- Identificação e caracterização de kelch-repita as proteínas codificadas no genoma humano
- localização cromossômica de proteínas de repetição de kelch humanas
- Arquitetura de Domínio do Humano Kelch-repita proteínas
- relações Estruturais de humanos BTB/kelch proteínas
- Kelch-repita as Proteínas codificadas em invertebrados genomas
- proteínas de repetição de Kelch codificadas em genomas de levedura
- restrição de proteínas BTB / kelch a animais metazoários e poxvírus
Identificação e caracterização de kelch-repita as proteínas codificadas no genoma humano
Para identificar o kelch-repita as proteínas codificadas no genoma humano, BLAST e PSI-BLAST pesquisas do genoma humano, previsto proteína de banco de dados foram realizadas com o kelch-motivo de consenso (CDD543, Pfam01344, INTELIGENTE 00612) como uma seqüência de consulta. Esta pesquisa identificou 57 proteínas de repetição de kelch e proteínas hipotéticas. Observamos que várias das proteínas de repetição de algas humanas conhecidas não foram identificadas por este método, provavelmente porque há relativamente poucos resíduos de consenso em cada motivo de algas, nenhum dos quais é completamente invariante em todos os exemplos do motivo, e também por causa da variação nos comprimentos das alças entre as cadeias β . Portanto, outras pesquisas foram feitas com as repetições de kelch de todos os 28 membros conhecidos da superfamília, conforme descrito nos métodos. Essas pesquisas identificaram 18 proteínas adicionais de repetição de algas codificadas no genoma humano. A referência cruzada de todas as 75 entradas contra o GenBank identificou 9 das entradas como sequências parciais e / ou entradas duplicadas para a mesma proteína ou ORF hipotético, e duas das entradas como proteínas contendo não kelch. Também cruzamos os resultados da pesquisa com as entradas de domínio para kelch nos bancos de dados Pfam e Smart domain. Muitas entradas foram listadas no SMART e no Pfam, no entanto, várias das proteínas que identificamos não foram listadas nessas bases de dados (indicadas na Tabela 1), embora quando pesquisamos esses polipeptídeos contra o Smart ou Pfam, os motivos kelch foram claramente identificados. Além disso, os números de proteínas de repetição de algas atribuídas a H. sapiens na árvore de espécies ou ligações de quebra de impostos de Pfam e SMART foram superestimados devido à inclusão de ORFs incompletos e entradas múltiplas para o mesmo polipeptídeo. Também realizamos pesquisas adicionais de GenBank com motivos de kelch simples das 28 proteínas conhecidas de Kelch-repeat que eram distintamente mais longas do que o consenso CDD kelch-motif, a fim de pesquisar mais extensivamente por proteínas contendo repetições mais divergentes. A partir dessas múltiplas avaliações e com exclusão de sequências parciais (conforme descrito nos métodos), identificamos pelo menos 71 proteínas de repetição de kelch codificadas no genoma humano (Tabela 1).
Para determinar o número de repetidas kelch motivos em cada proteína ou proteína hipotética, BLASTP pesquisas foram feitas com cada sequência contra o Conservada Domínio de Banco de dados (CDD) e Pfam, juntamente com o manual de identificação de kelch motivos. O número de motivos de algas identificados variou de dois a sete. Quatro lâminas é o número minumum que foi documentado a partir de estruturas cristalinas de domínios β-hélice . Assim, parecia improvável que as entradas que codificavam dois ou três motivos kelch correspondessem a ORFs completos e estes foram excluídos de análises adicionais (entradas NP-689579, XP_209285, XP_058629). Nesta base, previa-se que 12,7 % (9/71) das sequências contivessem hélices β de cinco pás, 84,5 % (60/71) fossem de seis pás e 2,8 % (2/71) contivessem hélices β de sete pás (Tabela 1). Até onde sabemos, apenas uma proteína de repetição de algas de sete lâminas foi identificada anteriormente, a galactose oxidase fúngica .
Em galactose oxidase, o único kelch-repita proteína para o qual não há estrutura cristalina da informação, a hélice é circularised pela formação de um composto sétimo lâmina, com a β a β-três vertentes fornecida a partir de mais C-terminal da seqüência de repetição e o β-quatro vertente fornecida pela sequência de amino-terminal para a primeira sequência completa de repetição, um mecanismo conhecido como “N-terminal β-fio de fechamento” , (Fig. 1C). Examinamos as proteínas de repetição de algas humanas por predição de estrutura secundária de folhas β e por análise manual das repetições de sequência, e descobrimos que para 77,5 % (55/71) das proteínas a estrutura β-hélice foi prevista para ser fechada por uma cadeia β terminal C. Para cinco sequências, nenhuma previsão clara poderia ser feita (Tabela 1).
localização cromossômica de proteínas de repetição de kelch humanas
as sequências de codificação para proteínas de repetição de kelch humanas estão dispersas por todo o genoma, estando localizadas em todos os cromossomos, exceto no cromossomo 21 e no cromossomo Y (Tabela 1). Várias instâncias de genes em proximidade física foram notadas, por exemplo NP_006460 e NP_067646 no 1q31. 3 e NP_569713 e NP_060114 no 3q27.3 (Tabela 1). No entanto, na maioria dos casos, estes não correspondiam às sequências de proteínas mais intimamente relacionadas, como seria de esperar para genes recentemente duplicados. Uma exceção foi NP_055130 e NP-751943 que estavam localizados no 14t21.3 e que eram os mais intimamente relacionados entre si (46% de identidade). No geral, não houve evidências para o agrupamento físico de sequências codificadoras de proteína kelch dentro do genoma humano. Em contraste, os genes que codificam as numerosas proteínas f-box / kelch de A. thaliana são agrupados de tal forma que algumas das sequências mais altamente relacionadas são codificadas de locais genômicos fisicamente próximos .
Arquitetura de Domínio do Humano Kelch-repita proteínas
Vinte e oito kelch-repetição de proteínas de diferentes organismos anteriormente foram agrupados em 5 categorias estruturais de acordo com o posicionamento do kelch repete dentro do polipeptídeo sequência e a presença de outros conservada estruturais domínios . Para avaliar a complexidade das arquiteturas de domínio dentro de um único organismo, cada sequência de proteína kelch-repeat humana foi reanalisada pesquisando contra CDD, SMART e Pfam e, em seguida, subgrupo de acordo com a arquitetura de domínio.
surpreendentemente, 72% (51/71) das proteínas de repetição de algas humanas continham um domínio BTB/POZ. Em todas as proteínas, exceto uma, o domínio BTB era amino-terminal para o domínio kelch (Tabela 1). Esta proteína hipotética, LZTR-1, continha dois domínios BTB tandem. Quatro (5,6%) proteínas de repetição de algas continham um único domínio conservado adicional. Muskelin foi a única proteína de repetição de algas identificada no genoma humano a conter um domínio de discoidina (CDD 7753, Pfam 00231, SMART 00231, também conhecido como domínio F5/F8 tipo C) (Prag, Collett e Adams, em preparação). O domínio da discoidina atua como um domínio de interação proteína-proteína em várias proteínas extracelulares e intracelulares e, nos fatores de coagulação V e VIII, medeia a ligação fosfolipídica . Outra proteína kelch, XP_048774, continha um domínio f-box (CDD9197, Pfam 00646). O f-box é um domínio de cerca de quarenta resíduos, identificado pela primeira vez em ciclina a, que interage com Skp1 para ancorar proteínas ao conjunto ubiquitina-ligase para ubiquitinação e direcionamento para degradação mediada por proteossomos . A combinação de domínios f-box e Kelch-repeat foi descrita anteriormente em A. thaliana, onde pelo menos 67 proteínas F-box/kelch e proteínas hipotéticas são codificadas no genoma . Várias dessas funções na regulação dependente da luz do relógio circadiano, mas a função de muitas outras é obscura . Até onde sabemos, este é o primeiro reconhecimento de uma proteína f-box/kelch em um genoma animal. Uma previsto kelch-repita proteína, NP_055608, continha uma leucina carboxilo methyltansferase (LCM) domínio (CDD9631, Pfam 04072) com 34% de identidade para o LCM domínio de proteína fosfatase 2 leucina carboxilo metiltransferase . Recombinação – ativando gene-2 (RAG-2) contém uma planta homeodomain (PHD) domínio do dedo (Pfam00628) no carboxi-terminal .
seis proteínas de repetição de algas (11 %) foram proteínas muito grandes e multidomínio (Tabela 1). Attractin / mogno (que são variantes de emenda de um único gene; 27-29) e MEGF8 têm mais de 1000 aminoácidos de comprimento e continham um domínio de filhote, repetições kelch, um domínio de lectina do tipo C e domínios semelhantes a EGF. Diversas funções foram atribuídas a attractin e mogno que incluem um papel nas interações de células T (attractin, a variante de emenda secretada) e regulação da obesidade em camundongos (mogno, a variante de emenda transmembrana) . Fator de célula hospedeira-1 e -2 (HCF-1 e HCF-2) também são proteínas grandes que contêm repetições de algas amino-terminais, dois domínios de fibronectina tipo III e, no caso de HCF-1, uma série de repetições únicas de HCF. Essas proteínas funcionam como coativadores transcricionais da expressão gênica precoce imediata do vírus herpes simplex .
foram identificadas três proteínas hipotéticas de repetição de kelch como contendo sequências únicas não relacionadas que não correspondiam a domínios estruturais reconhecidos, posicionadas amino ou carboxi-terminal para as repetições de kelch (Tabela 1).
rab9 effector p40 e seis outras proteínas de repetição de kelch eram polipeptídeos curtos, de 350-442 aminoácidos de comprimento, que consistiam quase inteiramente de repetições de kelch (Tabela 1). Cinco dessas proteínas ou proteínas hipotéticas, incluindo p40, continham seis repetições de sequência e, portanto, estão previstas para formar hélices β de seis lâminas. Duas proteínas hipotéticas, NP_060673 e XP_114323, consistiam em supostas hélices β de sete lâminas. Juntas, essas distinções estruturais formam a base para a nova categorização de proteínas de repetição de algas humanas que é apresentada aqui (Tabela 1).
relações Estruturais de humanos BTB/kelch proteínas
O número inesperadamente grande de BTB/kelch proteínas codificadas no genoma humano, nos levaram a estudar este grupo em mais detalhe, com o objetivo de identificar estruturais subgrupos, que também pode representar subconjuntos funcionais. As 38 sequências completas que continham domínios BTB únicos e previram hélices β de seis lâminas foram alinhadas de acordo com a semelhança de sequência em CLUSTALW e vistas como árvores que se juntam à vizinhança. O alinhamento das sequências de comprimento total revelou três subgrupos de tamanho aproximadamente igual, que denominamos subgrupos 1 a 3 (Fig. 2A). Quando a mesma análise foi realizada apenas com os domínios kelch, o mesmo agrupamento foi aparente para o subgrupo 1 e uma proporção substancial de subgrupo 2, denominado subgrupo 2A (Fig. 2B). Em um alinhamento apenas dos domínios BTB, os subgrupos 1 e 2 foram mantidos para a maioria das sequências (Fig. 2C). Árvores não enraizadas produzidas por um método separado para alinhamento com base na análise máxima de parcimônia de sequências, PROTPARS, não suportaram subgrupo 3, mas demonstraram consistentemente a relação das sequências nos subgrupos 1 e 2A (dados não mostrados). Focamos nessas sequências de repetição de kelch robustamente relacionadas nos subgrupos 1 e 2A, para uma análise mais próxima dos domínios de repetição de kelch.
o alinhamento de sequência múltipla de CLUSTALW dos domínios Kelch-repeat de cada um dos subgrupos 1 e 2A demonstrou características distintas em termos de organização repetida. Em ambos os subgrupos (Fig. 3 e Fig. 4), o loop intrablade entre os fios β 2 e 3 (o loop 2-3, Fig. 5A) e o loop interblade 4-1 foram as principais fontes de variação dentro das repetições no que diz respeito ao seu comprimento e estrutura primária. No contexto de um domínio β-hélice intacto, os loops 1-2 e 3-4 se projetam acima de uma face das folhas β e o loop 2-3 se projeta da face oposta (Fig. 5A). O laço 4-1 encontra-se na mesma face que o laço 2-3, ou pode ser posicionado mais próximo ao núcleo da folha β da hélice (Fig. 5). No subgrupo 1, os 2-3 loops mais longos foram encontrados nas repetições 1, 5 e 6, com loops mais curtos nas lâminas 2, 3 e 4. O loop 4-1 mais longo foi aquele entre as repetições 5 e 6 (Fig. 3). No contexto de uma hélice β, isso sugere que o lado da hélice formado pelas repetições 5, 6 e 1 pode estar particularmente envolvido nas interações proteicas (ver Fig. 1C). No subgrupo 2A, os 2-3 loops mais longos eram aqueles nas repetições 1 e 2, as repetições 4 e 5 tinham 2-3 loops intermediários e as repetições 3 e 6 continham os 2-3 loops mais curtos. Os 4-1 loops mais longos foram aqueles entre as repetições 1 e 2 e as repetições 3 e 4 (Fig. 4). Isso sugere que há uma organização diferente de locais de ligação no subgrupo 2A β-hélices, com talvez duas faces de ligação formadas por repetições 1 e 2 e repetições 4 e 5. No nível das sequências individuais, também havia exemplos específicos de variação da organização de repetição padrão que poderiam ser de importância funcional para proteínas individuais. Por exemplo, NP_695002 no subgrupo 2A tem um loop 3-4 incomumente longo e altamente carregado na repetição 1 e XP_ 040383 tem um loop 3-4 longo na repetição 4(Fig. 4).
também descobrimos que as sequências de consenso para a dobra eram distintas entre os dois subgrupos. A sequência de consenso de identidade de 50% de cada subgrupo foi realinhada contra a unidade de repetição de kelch para derivar sequências médias de consenso de identidade de 50% para o subgrupo 1 e subgrupo 2A. esses motivos foram mapeados contra a estrutura de lâmina conhecida da galactose oxidase (Fig. 5). Os motivos de consenso incluíam aminoácidos de importância para a dobra (localizada dentro das cadeias β) e certos aminoácidos dentro das alças, que seriam previstos para contribuir para interações de ligação. De notar, o comprimento médio do motivo foi mais curto no subgrupo 1 do que no subgrupo 2A. Prevê-se que o consenso do subgrupo 2A contenha um loop 2-3 mais longo. Os motivos de consenso foram distintos no posicionamento de resíduos carregados altamente conservados dentro das regiões de loop (Fig. 5). A conservação desses resíduos carregados foi mais pronunciada no subgrupo 1, onde essas posições foram conservadas no motivo para o nível de limiar de identidade de 70% (dados não mostrados). Essas distinções nas características de loop também são sugestivas de diferentes modalidades de interações proteína-proteína para as hélices β dos subgrupos 1 e 2a. No que diz respeito às propriedades de ligação à proteína previamente caracterizadas, observamos que as proteínas BTB / kelch que se ligam à actina foram divididas entre os subgrupos 1 e 3; portanto, essa função não tem uma relação simples com a estrutura primária (Fig. 2A).
Kelch-repita as Proteínas codificadas em invertebrados genomas
quiséssemos comparar o desenvolvimento evolutivo da kelch-repita proteínas entre humanos modernos e invertebrados, e então repetiu a análise de kelch-repita proteínas e estrutural dos subgrupos codificadas no genoma de D. melanogaster, A. gambiae e C. elegans . Foram identificadas 18 proteínas de repetição de kelch codificadas nos genomas de Drosophila e Anopheles (Tabela 2). Dezessete deles eram ortólogos conservados entre as duas espécies (a identidade média entre genes ortólogos de D. melanogaster e A. gambiae é de 56 % ) e um era exclusivo para cada espécie. Assim, um homólogo de Actinfilina foi identificado em A. gambiae, mas não em D. melanogaster e o genoma de D. melanogaster continha um homólogo de NP_116164 que não estava presente em A. gambiae (Tabela 2). Apenas três proteínas de repetição de kelch foram previamente caracterizadas em D. melanogaster, ou seja, Kelch, Muskelin e Drosophila fator celular hospedeiro . Dois outros, diablo e scruin-like na linha média (SLIM-1), foram reconhecidos como proteínas de repetição de kelch .
Dentro do grupo, de 19 de proteínas e proteínas hipotéticas, 95 % continham seis kelch-repete-se. Apenas uma proteína com cinco repetições de kelch foi identificada em D. melanogaster ou A. gambiae, o que correspondeu a um ortólogo da proteína humana F-box/kelch, XP_048774 (Tabela 2). 56 % das proteínas de repetição de kelch de D. melanogaster e A. gambiae eram proteínas BTB/kelch. Tanto D. melanogaster quanto A. gambiae continham uma proteína discoidina / kelch ortóloga à muskelin, uma proteína f-box/kelch, três proteínas kelch e multidomínio, uma kelch e proteína única e duas proteínas apenas de hélice. Assim, todas as 19 proteínas de repetição de kelch identificadas tinham homólogos no genoma humano e a arquitetura do domínio BTB/kelch foi a mais prevalente (Tabela 2).
foram identificadas 16 proteínas de repetição de kelch codificadas dentro do genoma de C. elegans (Tabela 3). Destas proteínas, apenas kel-1, spe-26 e CeHCF foram caracterizadas funcionalmente. Kel-1 é uma proteína intracelular envolvida na regulação do comportamento alimentar durante o desenvolvimento larval . O Spe-26 contribui para a organização celular dos espermatócitos e as mutações estão associadas à esterilidade . O CeHCF pode estar envolvido na regulação da proliferação celular . 43.7 % (7/16) das proteínas tinham a arquitetura de domínio BTB/kelch, duas eram homólogos de HCF e attractin com arquiteturas multidomínio semelhantes, duas continham sequências únicas fora das repetições kelch e duas eram proteínas apenas de hélice, ambas as quais foram previstas para formar hélices β de seis pás. Uma única proteína f-box/kelch foi identificada, mas nenhuma proteína semelhante a muskelin foi encontrada (Tabela 3). Em vez disso, duas proteínas hipotéticas com arquiteturas de domínio distintas foram identificadas : NP_506605 que também continha um cyclin carboxipenicilinas terminal de domínio (CDD 7965, Pfam 02984, INTELIGENTE 00385) e NP_506602, que continha um ANEL de domínio (CDD 8941, Pfam 00097, INTELIGENTE 00184). O domínio carboxi-terminal da ciclina forma uma dobra α-helicoidal que pode constituir um local de Interação da proteína . O domínio do anel é uma dobra de zinco-dedo que medeia as interações proteína-proteína .
proteínas de repetição de Kelch codificadas em genomas de levedura
várias proteínas de repetição de kelch foram estudadas funcionalmente em levedura de brotamento e fissão, mas nenhuma delas corresponde às proteínas BTB/kelch . Investigamos se a prevalência da arquitetura do domínio BTB/kelch que identificamos em animais multicelulares estendidos à levedura, analisando o complemento de proteínas de repetição de kelch codificadas nos genomas S. pombe e S. cerevisiae . Descobrimos que cada genoma codificou um pequeno número de proteínas de repetição de algas (Cinco em S. pombe, oito em S. cerevisiae), nenhum dos quais correspondia a uma proteína BTB/kelch (Tabela 4). Proteínas e proteínas hipotéticas constituídas por uma hélice β De kelch amino-terminal e uma região de bobina enrolada estendida e uma proteína correspondente a uma putativa leucina carboxil metiltransferase eram comuns a S. pombe e S. cerevisiae. As outras proteínas codificadas de repetição de kelch não eram homólogas (Tabela 4). Proteína 1 semelhante a Muskelin e Ral-2P foram identificados em S. pombe, mas não em S. cerevisiae . Duas proteínas com repetições de algas distantemente relacionadas, Gpb1 / Krh1 e Gpb2/Krh2, foram caracterizadas funcionalmente como proteínas de ligação ao receptor acopladas à proteína G em S. cerevisiae . Proteínas homólogas não foram identificadas em S. pombe no contexto de nosso estudo. Assim, a arquitetura de domínio BTB/kelch não foi identificada nessas leveduras.
restrição de proteínas BTB / kelch a animais metazoários e poxvírus
porque a arquitetura do domínio BTB/kelch apareceu prevalente em animais, mas não foi identificada em leveduras. Várias proteínas BTB / kelch foram relatadas como hipotéticas estruturas de leitura aberta (ORFs) na família dos vírus poxvírus de animais . O banco de dados Conserved Domain Architecture Retrieval Tool (CDART) do NCBI lista 333 entradas para proteínas BTB/kelch, todas originadas de vertebrados, insetos, C. elegans ou poxvírus. Até o momento, o domínio BTB só foi identificado em eucariotos (Árvore de espécies Pfam 00651). Além de revisar as árvores de espécies Smart e Pfam para categorização da arquitetura de domínio BTB/kelch, realizamos nossas próprias pesquisas BLASTP e TBLASTX do A. thaliana genoma de banco de dados com o CDD kelch motivo de consenso (esta ferramenta de pesquisa identificadas 44 BTB/kelch proteínas do genoma humano e, portanto, é muito eficaz na descoberta destas proteínas) e identificados 72 sequências de proteínas, a maioria dos quais eram F-caixa/kelch proteínas, algumas das quais foram serina-treonina fosfatase/kelch proteínas, e nenhum dos que foram BTB/kelch proteínas. Pesquisas com os domínios BTB de várias proteínas de repetição de algas humanas ou invertebradas também não identificaram proteínas BTB/kelch em A. thaliana. EXPLOSÃO de genomas de pesquisas em bancos de dados completa ou parcialmente seqüenciado eucaryotic animal e vegetal genomas no NCBI (Entrez/genome_tree, ), que incluía totalmente sequenciados os genomas do Apicomplexium Plasmodium falciparum , o Microsporidium Encephalitozoon cuniculi , a planta de Oryza sativa (arroz ) e o fungo Neurospora crassa identificados muitos previram kelch-repita-contendo proteínas, mas não ORFs que tinha o BTB/kelch arquitetura de domínio. Os resultados para arquiteturas de domínio selecionadas em cinco organismos eucarióticos são apresentados na Fig. 6. Observamos, no entanto, em espécies de Apicomplexia, duas proteínas com arquitetura de domínio K Tetra / kelch (NP_705330 e EAA22466). O domínio K tetra (Pfam 02214) é um parente estrutural distante do domínio BTB/POZ . No geral, esses resultados fornecem uma indicação significativa de que as sequências de codificação de proteínas para a arquitetura do domínio BTB/kelch se expandiram durante a evolução de animais multicelulares, em comparação com Apicomplexia, fungos, plantas e outros eucariotos.