Kraken2

2020/12 AGGIORNAMENTO

Si prega di fare riferimento al Kraken 2 Github Wiki per tutti gli aggiornamenti andare avanti. Siamo in procinto di spostare tutte le informazioni/link rilevanti alla pagina Wiki di Github. Grazie per la pazienza.

A partire da settembre 2020, abbiamo creato un sito Amazon Web Services per ospitare molti degli indici Kraken2 più diffusi, disponibili a https://github.com/BenLangmead/aws-indexes.

KrakenTools è una suite di script per aiutare nell’analisi dei risultati Kraken. KrakenTools è un progetto in corso guidato da Jennifer Lu. Si prega di consultare la pagina web KrakenTools per maggiori dettagli.

Informazioni su Kraken 2

Kraken 2 è la versione più recente di Kraken, un sistema di classificazione tassonomica che utilizza corrispondenze k-mer esatte per ottenere un’elevata precisione e velocità di classificazione elevate. Questo classificatore corrisponde ogni k-mer all’interno di una sequenza di query al più basso antenato comune (LCA) di tutti i genomi contenenti il dato k-mer. Le assegnazioni k-mer informano l’algoritmo di classificazione. .
Kraken 2 fornisce miglioramenti significativi a Kraken 1, con tempi di compilazione del database più rapidi, dimensioni del database più piccole e velocità di classificazione più elevate. Questi miglioramenti sono stati raggiunti dai seguenti aggiornamenti al programma di classificazione Kraken:

  1. Memorizzazione dei minimizzatori: invece di memorizzare/interrogare interi k-mer, Kraken 2 memorizza i minimizzatori (l-mer) di ogni k-mer. La lunghezza di ogni l-mer deve essere ≤ la lunghezza k-mer. Ogni k-mer viene trattato da Kraken 2 come se il suo LCA fosse lo stesso del LCA del suo minimizzatore.
  2. Introduzione dei semi distanziati: Kraken 2 utilizza anche i semi distanziati per memorizzare e interrogare i minimizzatori per migliorare l’accuratezza della classificazione.
  3. Struttura del database: Mentre Kraken 1 ha salvato un elenco indicizzato e ordinato di coppie k-mer/LCA, Kraken 2 utilizza una tabella hash compatta. Questa tabella hash è una struttura di dati probabilistica che consente query più veloci e requisiti di memoria inferiori. Tuttavia, questa struttura di dati ha una probabilità <1% di restituire l’LCA errato o restituire un LCA per un minimizzatore non inserito. Gli utenti possono compensare questa possibilità utilizzando le soglie di punteggio di fiducia di Kraken.
  4. Database proteici: Kraken 2 consente database costruiti da sequenze di aminoacidi. Quando viene interrogato, Kraken 2 esegue una ricerca tradotta a sei fotogrammi delle sequenze di query rispetto al database.
  5. Database 16S: Kraken 2 fornisce anche il supporto per database non basati sulla tassonomia di NCBI. Attualmente, questi includono i database 16S: Greengenes, SILVA e RDP.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.