2020/12 ACTUALIZACIÓN
Por favor, consulte el Wiki de Github de Kraken 2 para ver todas las actualizaciones en el futuro. Estamos en el proceso de mover toda la información/enlaces relevantes a la página Wiki de Github. Gracias por su paciencia.
A partir de septiembre de 2020, hemos creado un sitio de Amazon Web Services para alojar muchos de los índices Kraken2 más utilizados, disponibles en https://github.com/BenLangmead/aws-indexes.
KrakenTools es un conjunto de scripts para ayudar en el análisis de los resultados de Kraken. KrakenTools es un proyecto en curso dirigido por Jennifer Lu. Consulte la página web de KrakenTools para obtener más detalles.
Acerca de Kraken 2
Kraken 2 es la versión más reciente de Kraken, un sistema de clasificación taxonómica que utiliza coincidencias exactas de k-mer para lograr una alta precisión y velocidades de clasificación rápidas. Este clasificador hace coincidir cada k-mer dentro de una secuencia de consulta con el ancestro común más bajo (ACV) de todos los genomas que contienen el k-mer dado. Las asignaciones k-mer informan al algoritmo de clasificación. .
Kraken 2 proporciona mejoras significativas a Kraken 1, con tiempos de creación de bases de datos más rápidos, tamaños de bases de datos más pequeños y velocidades de clasificación más rápidas. Estas mejoras se lograron mediante las siguientes actualizaciones del programa de clasificación de Kraken:
- Almacenamiento de minimizadores: En lugar de almacenar/consultar k-mers completos, Kraken 2 almacena minimizadores (l-mers) de cada k-mer. La longitud de cada l-mer debe ser ≤ la longitud de k-mer. Cada k-mer es tratado por Kraken 2 como si su ACV fuera el mismo que el ACV de su minimizador.
- Introducción de semillas espaciadas: Kraken 2 también utiliza semillas espaciadas para almacenar y minimizar consultas para mejorar la precisión de la clasificación.
- Estructura de la base de datos: Mientras que Kraken 1 guarda una lista indexada y ordenada de pares k-mer/LCA, Kraken 2 utiliza una tabla hash compacta. Esta tabla hash es una estructura de datos probabilística que permite consultas más rápidas y menores requisitos de memoria. Sin embargo, esta estructura de datos tiene una probabilidad <1% de devolver el ACV incorrecto o devolver un ACV para un minimizador no insertado. Los usuarios pueden compensar esta posibilidad utilizando los umbrales de puntuación de confianza de Kraken.
- Bases de datos de proteínas: Kraken 2 permite crear bases de datos a partir de secuencias de aminoácidos. Cuando se consulta, Kraken 2 realiza una búsqueda traducida de seis fotogramas de las secuencias de consulta en la base de datos.
- Bases de datos 16S: Kraken 2 también proporciona soporte para bases de datos no basadas en la taxonomía de NCBI. Actualmente, estas incluyen las bases de datos 16S: Greengenes, SILVA y RDP.