2020/12 UPDATE
Bitte beachten Sie die Kraken 2 Github Wiki für alle Updates vorwärts. Wir sind dabei, alle relevanten Informationen / Links auf die Github-Wiki-Seite zu verschieben. Vielen Dank für Ihre Geduld.
Ab September 2020 haben wir eine Amazon Web Services-Website erstellt, auf der viele der am häufigsten verwendeten Kraken2-Indizes gehostet werden, die unter https://github.com/BenLangmead/aws-indexes verfügbar sind.
KrakenTools ist eine Suite von Skripten, die bei der Analyse von Kraken-Ergebnissen helfen. KrakenTools ist ein laufendes Projekt unter der Leitung von Jennifer Lu. Bitte beachten Sie die KrakenTools Webseite für weitere Details.
Über Kraken 2
Kraken 2 ist die neueste Version von Kraken, einem taxonomischen Klassifikationssystem, das exakte k-Mer-Übereinstimmungen verwendet, um eine hohe Genauigkeit und schnelle Klassifizierungsgeschwindigkeiten zu erreichen. Dieser Klassifikator ordnet jedes k-Mer innerhalb einer Abfragesequenz dem kleinsten gemeinsamen Vorfahren (LCA) aller Genome zu, die das angegebene k-Mer enthalten. Die k-mer-Zuordnungen informieren den Klassifizierungsalgorithmus. .
Kraken 2 bietet signifikante Verbesserungen gegenüber Kraken 1, mit schnelleren Datenbank-Build-Zeiten, kleineren Datenbankgrößen und schnelleren Klassifizierungsgeschwindigkeiten. Diese Verbesserungen wurden durch die folgenden Aktualisierungen des Kraken-Klassifizierungsprogramms erreicht:
- Speicherung von Minimizern: Anstatt ganze K-Mer zu speichern / abzufragen, speichert Kraken 2 Minimizer (l-mer) jedes K-Mer. Die Länge jedes l-Mers muss ≤ der k-Mer-Länge sein. Jeder k-Mer wird von Kraken 2 so behandelt, als ob seine Ökobilanz der Ökobilanz seines Minimierers entspricht.
- Einführung von Spaced Seeds: Kraken 2 verwendet auch Spaced Seeds zum Speichern und Abfragen von Minimierern, um die Klassifizierungsgenauigkeit zu verbessern.
- Datenbankstruktur: Während Kraken 1 eine indizierte und sortierte Liste von k-mer / LCA-Paaren verwendet, verwendet Kraken 2 eine kompakte Hash-Tabelle. Diese Hash-Tabelle ist eine probabilistische Datenstruktur, die schnellere Abfragen und geringere Speicheranforderungen ermöglicht. Diese Datenstruktur hat jedoch eine < 1% ige Chance, die falsche Ökobilanz oder eine Ökobilanz für einen nicht eingefügten Minimierer zurückzugeben. Benutzer können diese Möglichkeit kompensieren, indem sie die Vertrauensschwellenwerte von Kraken verwenden.
- Proteindatenbanken: Kraken 2 ermöglicht Datenbanken, die aus Aminosäuresequenzen aufgebaut sind. Bei der Abfrage führt Kraken 2 eine übersetzte Sechs-Frame-Suche der Abfragesequenzen in der Datenbank durch.
- 16S Datenbanken: Kraken 2 bietet auch Unterstützung für Datenbanken, die nicht auf der Taxonomie der NCBI basieren. Derzeit gehören dazu die 16S-Datenbanken: Greengenes, SILVA und RDP.