- identifikation og karakterisering af kelch-repeat proteiner kodet i det humane genom
- kromosomal lokalisering af humane kelch-gentagelsesproteiner
- Domænearkitektur af humane Kelch-gentagelsesproteiner
- strukturelle forhold mellem humane BTB/kelch-proteiner
- Kelch-gentagelsesproteiner kodet i hvirvelløse genomer
- Kelch-repeat proteiner kodet i gærgenomer
- begrænsning af BtB / kelch-proteiner til metasoiske dyr og vira
identifikation og karakterisering af kelch-repeat proteiner kodet i det humane genom
for at identificere kelch-repeat proteiner kodet i det humane genom, BLAST og PSI-BLAST søgninger af den menneskelige genom forudsagt protein database blev udført med Kelch-motiv konsensus (CDD543, pfam01344, Smart 00612) som en forespørgselssekvens. Denne søgning identificerede 57 kelch-gentagne proteiner og hypotetiske proteiner. Vi bemærkede, at flere af de kendte humane kelch-gentagelsesproteiner ikke blev identificeret ved denne metode, sandsynligvis fordi der er relativt få konsensusrester i hvert kelchmotiv, hvoraf ingen er fuldstændig uforanderlig på tværs af alle eksempler på motivet, og også på grund af variation i længderne af sløjferne mellem de røde tråde . Derfor blev der foretaget yderligere søgninger med kelch-gentagelser af alle 28 kendte superfamiliemedlemmer, som beskrevet i metoderne. Disse søgninger identificerede 18 yderligere kelch-gentagne proteiner kodet i det humane genom. Krydshenvisning af alle 75 poster mod GenBank identificerede 9 af posterne som delvise sekvenser og/eller duplikatposter for det samme protein eller hypotetiske ORF og to af posterne som ikke-kelchholdige proteiner. Vi krydsrefererede også søgeresultaterne til domæneposterne for kelch i PFAM-og SMART domain-databaserne. Mange poster blev opført i både SMART og Pfam, men et antal af de proteiner, vi havde identificeret, blev ikke opført i disse databaser (angivet i tabel 1), selvom når vi søgte disse polypeptider mod SMART eller Pfam, blev kelchmotiver tydeligt identificeret. Desuden er antallet af kelch-gentagne proteiner tildelt H. sapiens i Artstræet eller Skatbreak-forbindelserne til Pfam og SMART blev overvurderet på grund af inkludering af ufuldstændige Orf ‘ er og flere poster for det samme polypeptid. Vi udførte også yderligere søgninger af GenBank med enkelt kelch-motiver fra 28 kendte kelch-gentagelsesproteiner, der var tydeligt længere end CDD kelch-motiv-konsensus, for at søge mere udførligt efter proteiner, der indeholder mere divergerende gentagelser. Fra disse flere evalueringer og med udelukkelse af delvise sekvenser (som beskrevet i metoderne) identificerede vi mindst 71 kelch-gentagne proteiner kodet i det humane genom (tabel 1).
for at bestemme antallet af gentagne kelchmotiver i hvert protein eller hypotetisk protein blev der foretaget BLASTP-søgninger med hver sekvens mod den konserverede Domænedatabase (CDD) og Pfam sammen med manuel identifikation af kelchmotiver. Antallet af identificerede kelchmotiver varierede fra to til syv. Four blades er det minumum-nummer, der er dokumenteret fra krystalstrukturer af kurpel-domæner . Det forekom således usandsynligt, at poster, der koder for to eller tre kelch-motiver, svarede til komplette Orf ‘ er, og disse blev udelukket fra yderligere analyse (poster NP-689579, 209285, 058629). På dette grundlag blev 12,7 % (9/71) af sekvenserne forudsagt at indeholde fembladede karrosseripropeller, 84,5 % (60/71) til at være seksbladede og 2,8 % (2/71) til at indeholde syvbladede karrosseripropeller (tabel 1). Så vidt vi ved, er kun et syvbladet kelch-gentagelsesprotein blevet identificeret tidligere, svampegalactoseoksidase .
i galactoseoksidase, det enkelte kelch-gentagelsesprotein, for hvilket der findes oplysninger om krystalstruktur, cirkuleres propellen ved dannelse af et sammensat syvende blad, hvor de tre strenge fra den mest C-terminale sekvens gentages, og de fire strenge fra sekvensen amino-terminal til den første fulde sekvensgengivelse, en mekanisme kaldet “N-terminal lukning af strenge fra den ene til den anden”, (Fig. 1C). Vi undersøgte de humane kelch-gentagelsesproteiner ved sekundær strukturforudsigelse af KRP-ark og ved manuel analyse af sekvensrepeaterne og fandt, at for 77,5 % (55/71) af proteinerne blev KRP-propellerstrukturen forudsagt at blive lukket af en C-terminal KRP-streng. For fem sekvenser kunne der ikke foretages nogen klar forudsigelse (tabel 1).
kromosomal lokalisering af humane kelch-gentagelsesproteiner
kodningssekvenserne for humane kelch-gentagelsesproteiner spredes gennem genomet og er placeret på alle kromosomer undtagen kromosom 21 og Y-kromosomet (tabel 1). Flere tilfælde af gener i fysisk nærhed blev bemærket, for eksempel NP_006460 og NP_067646 ved 1k31.3 og NP_569713 og NP_060114 ved 3k27.3 (Tabel 1). I de fleste tilfælde svarede disse imidlertid ikke til de mest nært beslægtede proteinsekvenser, som man kunne forvente for nyligt duplikerede gener. En undtagelse var NP_055130 og NP-751943, som var placeret på 14k21.3, og som var de mest nært beslægtede med hinanden (46% identitet). Samlet set var der ingen beviser for fysisk gruppering af kelch-protein kodende sekvenser inden for det humane genom. I modsætning hertil er gener, der koder for de mange f-boks/kelch-proteiner fra A. thaliana, grupperet således, at nogle af de mest relaterede sekvenser er kodet fra fysisk tætte genomiske placeringer .
Domænearkitektur af humane Kelch-gentagelsesproteiner
otteogtyve kelch-gentagelsesproteiner fra forskellige organismer blev tidligere grupperet i 5 strukturelle kategorier i henhold til placeringen af kelch-gentagelserne inden for polypeptidsekvensen og tilstedeværelsen af andre konserverede strukturelle domæner . For at evaluere kompleksiteten af domænearkitekturer inden for en enkelt organisme blev hver human kelch-gentagelsesproteinsekvens analyseret igen ved at søge mod CDD, SMART og Pfam og derefter undergrupperet i henhold til domænearkitektur.
påfaldende indeholdt 72 % (51/71) af de humane kelch-repeatproteiner et BTB/POS-domæne. I alle undtagen et af proteinerne var BTB-domænet amino-terminal til kelch-domænet (tabel 1). Dette hypotetiske protein, LSTR-1, indeholdt to tandem BTB domæner. Fire (5,6%) kelch-gentagne proteiner indeholdt et enkelt yderligere konserveret domæne. Muskelin var det eneste kelch-gentagelsesprotein, der blev identificeret i det humane genom, der indeholdt et discoidin-domæne (CDD 7753, Pfam 00231, SMART 00231, også kendt som F5/F8 Type C-domæne) (Prag, Collett og Adams, under forberedelse). Discoidin-domænet fungerer som et protein-protein-interaktionsdomæne i et antal ekstracellulære og intracellulære proteiner og medierer i koagulationsfaktorer V og VIII phospholipidbinding . Et andet kelch-protein, HP_048774, indeholdt et f-boks domæne (CDD9197, Pfam 00646). F-boksen er et domæne på omkring fyrre rester, først identificeret i cyclin A, der interagerer med Skp1 for at forankre proteiner til den allestedsnærværende ligase-samling til allestedsnærværende og målretning mod proteosommedieret nedbrydning . Kombinationen af f-boks og kelch-gentag domæner er tidligere blevet beskrevet i A. thaliana, hvor mindst 67 f-boks/kelch proteiner og hypotetiske proteiner er kodet i genomet . Flere af disse fungerer i lysafhængig regulering af det cirkadiske ur, men mange andres funktion er uklar . Så vidt vi ved, er dette den første genkendelse af et f-boks/kelch-protein i et dyregenom. Et forudsagt kelch-gentagelsesprotein, NP_055608, indeholdt et leucinkarbonmethyltansferase (LCM) domæne (CDD9631, Pfam 04072) med 34% identitet til LCM-domænet af proteinphosphatase 2 leucinkarbonmethyltransferase . Rekombinationsaktiverende Gen – 2 (RAG-2) indeholder et plantehomeodomain (PHD) fingerdomæne (Pfam00628) ved carboksyterminalen .
seks kelch-gentagelsesproteiner (11 %) var meget store, multidomæneproteiner (tabel 1). Attractin / mahogni (der er splejsningsvarianter fra et enkelt gen; 27-29) og MEGF8 er hver over 1000 aminosyrer lange og indeholdt et CUB-domæne, kelch-gentagelser, et c-type lectindomæne og EGF-lignende domæner. Forskellige funktioner er blevet tilskrevet attractin og mahogni, der inkluderer en rolle i T-celleinteraktioner (attractin, den udskillede splejsningsvariant) og fedmeregulering hos mus (mahogni, transmembran splejsningsvarianten) . Værtscellefaktor-1 og -2 (HCF-1 og HCF-2) er også store proteiner, der indeholder amino-terminale kelch-gentagelser, to fibronectin type III-domæner og, i tilfælde af HCF-1, en række unikke HCF-gentagelser. Disse proteiner fungerer som transkriptionelle coaktivatorer af herpes virus øjeblikkelig tidlig genekspression .
vi identificerede tre hypotetiske kelch-gentagelsesproteiner som indeholdende ikke – relaterede unikke sekvenser, der ikke svarede til anerkendte strukturelle domæner, placeret enten amino-eller carboksyterminal til kelch-gentagelserne (tabel 1).
Rab9 effektor p40 og seks andre kelch-gentagne proteiner var korte polypeptider, fra 350-442 aminosyrer i længden, der næsten udelukkende bestod af kelch-gentagelser (tabel 1). Fem af disse proteiner eller hypotetiske proteiner, inklusive p40, indeholdt seks sekvensrepeatinger og forudsiges således at danne seksbladede kerp-propeller. To hypotetiske proteiner, NP_060673 og HP_114323, bestod af formodede syvbladede propeller. Tilsammen danner disse strukturelle forskelle grundlaget for den nye kategorisering af humane kelch-gentagelsesproteiner, der præsenteres her (tabel 1).
strukturelle forhold mellem humane BTB/kelch-proteiner
det uventet store antal BTB/kelch-proteiner kodet i det humane genom fik os til at studere denne gruppe mere detaljeret med det formål at identificere strukturelle undergrupper, der også kan repræsentere funktionelle undergrupper. De 38 sekvenser i fuld længde, der indeholdt enkelte BTB-domæner og forudsagde seksbladede Karp-propeller, blev justeret i henhold til sekvenslighed i KLYNGEALV og betragtet som naboskabsforbindende træer. Justering af sekvenserne i fuld længde afslørede tre undergrupper af omtrent lige stor størrelse, som vi kaldte undergrupper 1 til 3 (Fig. 2A). Når den samme analyse blev udført med kelch-domænerne alene, var den samme gruppering tydelig for undergruppe 1 og en væsentlig andel af undergruppe 2, betegnet undergruppe 2a (Fig. 2B). I en justering af kun BTB-domænerne blev undergrupper 1 og 2 opretholdt for størstedelen af sekvenser (Fig. 2C). Ikke-rodede træer produceret ved en separat metode til justering baseret på maksimal parsimonianalyse af sekvenser, PROTPARS, understøttede ikke undergruppe 3, men demonstrerede konsekvent forholdet mellem sekvenserne i undergruppe 1 og 2a (data ikke vist). Vi fokuserede på disse robust relaterede kelch-gentagelsessekvenser i undergrupper 1 og 2a for en nærmere analyse af kelch-gentagelsesdomænerne.
flere sekvensjustering af kelch-gentag domæner fra hver af undergrupper 1 og 2a demonstrerede særpræg med hensyn til gentagelsesorganisation. I begge undergrupper (Fig. 3 og Fig. 4), intrablade-sløjfen mellem kurvstrengene 2 og 3 (2-3-sløjfen, Fig. 5A) og interblade 4-1-sløjfen var vigtige kilder til variation inden for gentagelserne med hensyn til deres længde og primære struktur. I forbindelse med et intakt kurpel-domæne stikker 1-2-og 3-4-sløjferne ud over den ene side af kurpladerne, og 2-3-sløjfen stikker ud fra den modsatte side (Fig. 5A). 4-1-sløjfen ligger enten på samme flade som 2-3-sløjfen eller kan placeres tættere på propellens propellerkerne (Fig. 5). I undergruppe 1 blev de længste 2-3 sløjfer fundet i gentagelser 1, 5 og 6, med kortere sløjfer i blade 2, 3 og 4. Den længste 4-1 sløjfe var den mellem gentagelser 5 og 6 (Fig. 3). I forbindelse med en kurpeller antyder dette, at den side af propellen, der dannes ved gentagelser 5, 6 og 1, kan være særligt involveret i proteininteraktioner (se Fig. 1C). I undergruppe 2a var de længste 2-3 sløjfer dem i gentagelser 1 og 2, gentagelser 4 og 5 havde mellemliggende 2-3 sløjfer og gentagelser 3 og 6 indeholdt de korteste 2-3 sløjfer. De længste 4-1 sløjfer var dem mellem gentagelser 1 og 2 og gentagelser 3 og 4 (Fig. 4). Dette tyder på, at der er en anden organisation af bindingssteder i undergruppe 2A, med måske to bindingsflader dannet af gentagelser 1 og 2 og gentagelser 4 og 5. På niveau med individuelle sekvenser var der også specifikke eksempler på variation fra standard gentagelsesorganisationen, der kunne være af funktionel betydning for individuelle proteiner. For eksempel har NP_695002 i undergruppe 2a en usædvanlig lang og stærkt ladet 3-4 sløjfe i repeat 1 og 040383 har en lang 3-4 sløjfe i repeat 4 (Fig. 4).
vi fandt også, at konsensussekvenserne for folden var karakteristiske mellem de to undergrupper. 50% identitetskonsensussekvensen fra hver undergruppe blev justeret mod kelch-gentagelsesenheden for at udlede gennemsnitlige 50% identitetskonsensussekvenser for undergruppe 1 og undergruppe 2a. disse motiver blev kortlagt mod den kendte bladstruktur af galactoseoksidase (Fig. 5). Konsensusmotiverne omfattede både aminosyrer af betydning for folden (placeret inden for kursstrengene) og visse aminosyrer i sløjfer, der ville forudsiges at bidrage til bindende interaktioner. Bemærk, at motivets gennemsnitlige længde var kortere i undergruppe 1 end undergruppe 2a. Undergruppe 2a konsensus forventes at indeholde en længere 2-3 loop. Konsensusmotiverne var forskellige i placeringen af stærkt konserverede ladede rester inden for loopregionerne (Fig. 5). Bevarelsen af disse ladede rester var mest udtalt i undergruppe 1, hvor disse positioner blev bevaret i motivet til 70% identitetstærskelniveauet (data ikke vist). Disse forskelle i sløjfekarakteristika antyder også forskellige modaliteter af protein-protein-interaktioner for kurpellerne i undergrupper 1 og 2a. Med hensyn til tidligere karakteriserede proteinbindende egenskaber observerede vi, at BTB/kelch-proteinerne, der binder til actin, blev delt mellem undergrupper 1 og 3; Denne funktion har således ikke et simpelt forhold til den primære struktur (Fig. 2A).
Kelch-gentagelsesproteiner kodet i hvirvelløse genomer
vi ønskede at sammenligne den evolutionære udvikling af kelch-gentagelsesproteiner mellem mennesker og moderne hvirvelløse dyr og gentog således analysen af kelch-gentagelsesproteiner og deres strukturelle undergrupper kodet i genomerne af D. melanogaster, A. gambiae og C. elegans . Vi identificerede 18 kelch-gentagne proteiner kodet i Drosophila og Anopheles genomer (tabel 2). Sytten af disse var ortologer bevaret mellem de to arter (den gennemsnitlige identitet mellem ortologe gener af D. melanogaster og A. gambiae er 56%), og en var unik for hver art. Således blev en Actinfilin-homolog identificeret i A. gambiae, men ikke i D. melanogaster, og D. melanogaster-genomet indeholdt en homolog af NP_116164, som ikke var til stede i A. gambiae (tabel 2). Kun tre kelch-gentagne proteiner blev tidligere karakteriseret i D. melanogaster , nemlig Kelch, Muskelin og Drosophila værtscellefaktor . To andre, diablo og scruin-lignende på midterlinjen (SLIM-1), er blevet anerkendt som kelch-gentag proteiner .
inden for gruppen af 19 proteiner og hypotetiske proteiner indeholdt 95% seks kelch-gentagelser. Kun et protein med fem kelch-gentagelser blev identificeret i enten D. melanogaster eller A. gambiae, hvilket svarede til en ortolog af det humane f-boks/kelch-protein, HP_048774 (tabel 2). 56% af kelch-gentagelsesproteinerne fra D. melanogaster og A. gambiae var BTB/kelch-proteiner. Både D. melanogaster og A. gambiae indeholdt en discoidin / kelch protein ortologt til muskelin, en F-boks / kelch protein, tre kelch og multidomain proteiner, en kelch og unikt protein og to propel-only proteiner. Således havde alle de identificerede 19 kelch-gentagne proteiner homologer i det humane genom, og BTB/kelch-domænearkitekturen var den mest udbredte (tabel 2).
vi identificerede 16 kelch-gentagelsesproteiner kodet i C. elegans-genomet (tabel 3). Af disse proteiner er kun kel-1, spe-26 og CeHCF blevet funktionelt karakteriseret. Kel-1 er et intracellulært protein involveret i reguleringen af fodringsadfærd under larveudvikling . Spe – 26 bidrager til den cellulære organisering af spermatocytter, og mutationer er forbundet med sterilitet . CeHCF kan være involveret i reguleringen af celleproliferation . 43.7 % (7/16) af proteinerne havde BTB/kelch-domænearkitekturen, to var homologer af HCF og attractin med lignende multidomænearkitekturer, to indeholdt unikke sekvenser uden for kelch-gentagelserne, og to var kun propeller-proteiner, som begge blev forudsagt at danne seksbladede kurpeller. En enkelt f-boks / kelch protein blev identificeret, men ingen muskelin-lignende protein blev fundet (tabel 3),. I stedet blev to hypotetiske proteiner med karakteristiske domænearkitekturer identificeret : NP_506605, som også indeholdt et cyclin carboksy-terminal domæne (CDD 7965, Pfam 02984, SMART 00385) og NP_506602, der indeholdt et RINGDOMÆNE (CDD 8941, Pfam 00097, SMART 00184). Det cyclin carboksy-terminale domæne danner en kur-spiralformet fold, der kan udgøre et proteininteraktionssted . RINGDOMÆNET er en fingerfold, der medierer protein-protein-interaktioner .
Kelch-repeat proteiner kodet i gærgenomer
flere kelch-repeat proteiner er blevet undersøgt funktionelt i spirende og fission gær, men ingen af disse svarer til BTB/kelch proteiner . Vi undersøgte, om forekomsten af BtB/kelch-domænearkitekturen vi havde identificeret i multicellulære dyr udvidet til gær ved at analysere komplementet af kelch-gentagne proteiner kodet i S. pombe og S. cerevisiae genomer . Vi fandt ud af, at hvert genom kodede et lille antal kelch-gentagelsesproteiner (fem i S. pombe, otte I S. cerevisiae), hvoraf ingen svarede til et BTB/kelch-protein (Tabel 4). Proteiner og hypotetiske proteiner bestående af en amino-terminal kelch-propel og en udvidet coiled-coil region og et protein svarende til en formodet leucinmethyltransferase var fælles for S. pombe og S. cerevisiae. De andre kodede kelch-gentagne proteiner var ikke-homologe (Tabel 4). Muskelin-lignende 1 protein og Ral-2p blev identificeret i S. pombe, men ikke S. cerevisiae . To proteiner med fjernt beslægtede kelch-gentagelser, Gpb1/Krh1 og Gpb2 / Krh2, er funktionelt karakteriseret som G-proteinkoblede receptorbindende proteiner i S. cerevisiae . Homologe proteiner blev ikke identificeret i S. pombe i forbindelse med vores undersøgelse. Således blev BTB / kelch-domænearkitekturen ikke identificeret i disse gær.
begrænsning af BtB / kelch-proteiner til metasoiske dyr og vira
fordi BTB/kelch-domænearkitekturen syntes udbredt hos dyr, men ikke blev identificeret i gær, var vi interesserede i at overveje, om andre organismer kunne indeholde kelch-gentagne proteiner med denne domænearkitektur. Et antal BTB/kelch-proteiner er blevet rapporteret som hypotetiske åbne læserammer (Orf ‘ er) i familien af dyrevirus . Databasen Conserved Domain Architecture Retrieval Tool (CDART) på NCBI viser 333 poster for BTB/kelch-proteiner, som alle stammer fra hvirveldyr, insekter, C. elegans eller pokvira. Til dato er BTB-domænet kun blevet identificeret i eucaryoter (PFAM 00651 arter træ). Ud over at gennemgå SMART-og PFAM-artens træer til kategorisering af BtB/kelch-domænearkitekturen gennemførte vi vores egne blastp-og TBLAST-søgninger af A. thaliana genom database med CDD kelch motiv konsensus (dette søgeværktøj identificerede 44 BTB/kelch proteiner fra det humane genom og er således meget effektivt til at afdække disse proteiner) og identificerede 72 proteinsekvenser, hvoraf størstedelen var f-boks/kelch proteiner, hvoraf nogle var serin-threonin phosphatase/kelch proteiner, og ingen af dem var BTB/kelch proteiner. Søgninger med BTB-domænerne for flere humane eller hvirvelløse kelch-gentagne proteiner identificerede heller ikke BTB / kelch-proteiner i A. thaliana. BLASTGENOMER søger i databaserne for komplette eller delvist sekventerede eukaryote dyre-og plantegenomer ved NCBI (entres/genome_tree, ), der omfattede de fuldt sekventerede genomer af Apicompleksium Plasmodium falciparum , Mikrosporidium encephalitis cuniculi , planten Oryse sativa (ris; ) og svampen Neurospora crassa identificerede mange forudsagte kelch-gentagelsesholdige proteiner, men ingen Orf ‘ er, der havde BTB/kelch-domænearkitekturen. Resultater for udvalgte domænearkitekturer i fem eukaryote organismer er præsenteret i Fig. 6. Vi bemærkede dog i Apicompleksia-arter to proteiner med K Tetra /kelch-domænearkitektur (NP_705330 og EAA22466). K tetra-domænet (Pfam 02214) er en fjern strukturel slægtning til BTB/POS-domænet . Samlet set giver disse resultater en signifikant indikation af, at proteinkodende sekvenser for BTB/kelch-domænearkitekturen er blevet udvidet under udviklingen af multicellulære dyr sammenlignet med Apikompleksi, svampe, planter og andre eukaryoter.